آروان‌کلاد

شامگاه دوشنبه ۱۰ فروردین ۱۴۰۴، به‌دلیل آتش‌سوزی کابل‌ها و تجهیزات برق و در نتیجه قطع برق در دیتاسنتر میزبان زون ir-central1-b (سیمین) آروان‌کلاد، این زون دچار حادثه و به‌مدت حداقل ۳۶ ساعت از دسترس خارج شد.

زون سیمین، یکی از سه زون‌ آروان‌کلاد در ریجن  «ایران مرکزی – Iran Central» است. بیش‌تر محصولات آروان در این زون نیز فعال است. ۲۲درصداز مشتریان سرور ابری، ۱۷درصد از مشتریان دیتابیس ابری و در حدود ۳۷درصد از مشتریان فضای ذخیره‌سازی ابری آروان‌کلاد از این منطقه استفاده می‌کردند.

این حادثه از ساعات پایانی دوشنبه ۱۰ فروردین ۱۴۰۵ و با قطع کامل برق اصلی و ارتباط ژنراتورهای دیتاسنتر میزبان آغاز شد. با جایگزینی تجهیزات آسیب‌دیده و در حدود ۲۰ ساعت پس از آغاز حادثه، برق دیتاسنتر متصل شد. پس از اطمینان از پایداری برق، براساس پروتکل‌های DRP (Disaster Recovery Plans) متخصصان آروان مراحل بازیابی سرویس‌ها، رفع خرابی‌ها و به پایداری رساندن سرویس‌هی محصولات آروان‌کلاد را انجام دادند.

این حادثه روی محصولات غیرمنطقه‌ای از جمله DNS, CDN, Cloud Security, Edge Computing و… تاثیری نداشته است. در محصولات منطقه‌ای میزبانی شده در این زون نیز، مشتریانی که سرویس‌های خود را به‌شکل چند زون یا منطقه‌ای (چند شهری) دیپلوی کرده بودند، به داده‌ها و سرویس‌های‌شان دسترسی داشتند.

در این حادثه هیچ داده‌ای از دست نرفت و در ساعت ۴ عصر ۱۲ فروردین (۳۶ ساعت پس از آغاز حادثه) تاثیرات حادثه به پایان رسید و سرویس‌دهی به حالت عادی بازگشت.

در طول این حادثه، اطلاع‌رسانی روند آن به‌طور پیوسته در صفحه‌ی استتوس آروان‌کلاد به اطلاع مشتریان می‌رسید.

گاه‌شمار رخداد‌ها  – ۱۰ تا ۱۲ فروردین ۱۴۰۵

  • ۲۲:۴۰ – ۱۰ فروردین: آلرت افزایش دمای ناگهانی برای مرکز داده دریافت و بلافاصله بخشی از سرورها به علت اورهیت شدن از دسترس خارج شدند. با پی‌گیری به عمل آمده علت حادثه اختلال برق و بروز مشکل در سرمایش (کولینگ) اعلام شد. به‌منظور جلوگیری از آسیب بیش‌تر به سخت‌افزار، سرورهای باقی‌مانده خاموش شدند.
  • ۲۳:۲۰ – ۱۰ فروردین: دسترسی آروان به مرکز داده قطع شد. پس از پی‌گیری مشخص شد بخشی از کابل‌های تامین برق مرکز داده دچار حریق شدند و مرکز داده به‌شکل کامل از دسترس خارج شده است. چند ساعت پس از مهار آتش‌سوزی عملیات تعویض کابل از سوی تیم تاسیسات در مرکز داده آغاز شد.
  • ۱۷:۲۵ – ۱۱ فروردین: امکان آپلود ویدیو در پلتفرم ویدیو فراهم شد ولی دسترسی به ویدیوهایی که پیش‌تر روی دیتاسنتر سیمین قرار داشتند، هنوز ممکن نشده بود.
  • ۱۹:۳۰ – ۱۱ فروردین: بنا به اعلام مرکز داده، مشکل پیش آمده برطرف، و مجوز ورود به سایت صادر شد.
  • ۲۰:۱۵ – ۱۱ فروردین: تیم فنی آروان وارد سایت شد ولی بلافاصله با اعلام کد هشدار ۲۱ مجبور به ترک مرکز داده و انتقال به نقطه‌ی امن شدند.
  • ۲۱:۰۰ – ۱۱ فروردین: با اعلام وضعیت سفید تیم فنی آروان مجدد وارد مرکز داده شد و تجهیزات نتورک در مرحله نخست مورد ارزیابی قرار گرفت. در حال بررسی وضعیت تجهیزات و اطمینان از پایداری برق در ساعت ۲۱:۵۰ مجدد اختلال برقی در سطح دیتاسنتر ایجاد و کل برق مرکز داده قطع شد. با هدایت حراست دیتاسنتر میزبان، تیم‌های فنی مجدد از سایت خارج شدند تا بررسی و حل مشکل آغاز شود. طبق اعلام تیم فنی میزبان دیتاسنتر در این مرحله در مسیر اصلاح شده‌ی برق، خطایی مجدد اتفاق افتاد.
  • ۲۲:۳۰ – ۱۱ فروردین: مشکل حل و مجدد تیم‌های فنی برای ادامه‌ی کار وارد سایت شدند. پس از پایداری برق و نتورک متناسب با DRP ، مراحل روشن کردن تجهیزات و رفع خرابی‌های به‌وجود آمده، به‌شکل گام به گام انجام شد. در این فاصله چند بار به‌علت هشدارهای امنیتی و اعلام کد تخلیه مجبور به ترک سایت و بازگشت مجدد شدیم.
  • ۴:۳۰ – ۱۲ فروردین: تمامی سرورهای کلاستر محصول آبجکت‌استوریج به‌شکل عملیاتی روشن و تحویل تیم محصولی شدند تا فرآیند ریکاوری و بازگردانی داده را آغاز کنند. تعدادی از دیسک‌های ذخیره‌سازی به‌دلیل شوک‌های حادثه دچار خرابی بودند که همگی تعویض شدند.
  • ۵:۳۰ – ۱۲ فروردین: سرورهای زیرساخت ابری به‌شکل عملیاتی در آمده و تحویل تیم‌های محصولی شدند تا اقدامات لازم برای بازگردانی داده و اتصال مشترکان را آغاز شود.
  • ۶:۰۰ – ۱۲ فروردین: با اعلام وضعیت قرمر منطقه در ساعت ۶، مرکز داده مجدد تخلیه و ادامه اقدامات به‌شکل ریموت از سر گرفته شد.
  • ۰۸:۱۸ – ۱۲ فروردین: دسترسی به محصول سرور ابری پایدار شد.
  • ۰۹:۳۸ – ۱۲ فروردین: پنل و API محصول سرور ابری، میرور ریپازیتوری‌های لینوکس و کتاب‌خانه‌ها دردسترس مشتریان قرار گرفت.
  • ۱۰:۱۳ – ۱۲ فرروردین: پنل و API محصول دیتابیس ابری پایدار شد و  دردسترس مشتریان قرار گرفت.
  • ۱۵:۵۷ – ۱۲ فرروردین: دسترسی کاربران به بخش ویدیو‌های ذخیره‌شده در سیمین در پلتفرم ویدیو فراهم شد.
  • ۱۶:۰۰ – ۱۲ فرروردین: دسترسی کاربران به داده‌های روی محصول فضای ذخیره‌سازی ابری برقرار شد.
  • ۱۶:۰۰ – ۱۲ فرروردین: دسترسی کاربران لاگ‌ابری به لاگ‌های ذخیره‌شده در این زون فراهم شد.
  • ۱۶:۰۱ – ۱۲ فرروردین: پایان حادثه اعلام شد.

تمام مشتریانی که در این حادثه دچار آسب شدند، می‌توانند از طریق تیکت درخواست SLA خود را ثبت کنند. آروان‌کلاد بر اساس «توافق‌نامه‌ی سطح کیفیت خدمات» نسبت به جبران خدمات اقدام خواهد کرد.

ارسال پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *