شامگاه دوشنبه ۱۰ فروردین ۱۴۰۴، بهدلیل آتشسوزی کابلها و تجهیزات برق و در نتیجه قطع برق در دیتاسنتر میزبان زون ir-central1-b (سیمین) آروانکلاد، این زون دچار حادثه و بهمدت حداقل ۳۶ ساعت از دسترس خارج شد.
زون سیمین، یکی از سه زون آروانکلاد در ریجن «ایران مرکزی – Iran Central» است. بیشتر محصولات آروان در این زون نیز فعال است. ۲۲درصداز مشتریان سرور ابری، ۱۷درصد از مشتریان دیتابیس ابری و در حدود ۳۷درصد از مشتریان فضای ذخیرهسازی ابری آروانکلاد از این منطقه استفاده میکردند.

این حادثه از ساعات پایانی دوشنبه ۱۰ فروردین ۱۴۰۵ و با قطع کامل برق اصلی و ارتباط ژنراتورهای دیتاسنتر میزبان آغاز شد. با جایگزینی تجهیزات آسیبدیده و در حدود ۲۰ ساعت پس از آغاز حادثه، برق دیتاسنتر متصل شد. پس از اطمینان از پایداری برق، براساس پروتکلهای DRP (Disaster Recovery Plans) متخصصان آروان مراحل بازیابی سرویسها، رفع خرابیها و به پایداری رساندن سرویسهی محصولات آروانکلاد را انجام دادند.
این حادثه روی محصولات غیرمنطقهای از جمله DNS, CDN, Cloud Security, Edge Computing و… تاثیری نداشته است. در محصولات منطقهای میزبانی شده در این زون نیز، مشتریانی که سرویسهای خود را بهشکل چند زون یا منطقهای (چند شهری) دیپلوی کرده بودند، به دادهها و سرویسهایشان دسترسی داشتند.
در این حادثه هیچ دادهای از دست نرفت و در ساعت ۴ عصر ۱۲ فروردین (۳۶ ساعت پس از آغاز حادثه) تاثیرات حادثه به پایان رسید و سرویسدهی به حالت عادی بازگشت.
در طول این حادثه، اطلاعرسانی روند آن بهطور پیوسته در صفحهی استتوس آروانکلاد به اطلاع مشتریان میرسید.


گاهشمار رخدادها – ۱۰ تا ۱۲ فروردین ۱۴۰۵
- ۲۲:۴۰ – ۱۰ فروردین: آلرت افزایش دمای ناگهانی برای مرکز داده دریافت و بلافاصله بخشی از سرورها به علت اورهیت شدن از دسترس خارج شدند. با پیگیری به عمل آمده علت حادثه اختلال برق و بروز مشکل در سرمایش (کولینگ) اعلام شد. بهمنظور جلوگیری از آسیب بیشتر به سختافزار، سرورهای باقیمانده خاموش شدند.
- ۲۳:۲۰ – ۱۰ فروردین: دسترسی آروان به مرکز داده قطع شد. پس از پیگیری مشخص شد بخشی از کابلهای تامین برق مرکز داده دچار حریق شدند و مرکز داده بهشکل کامل از دسترس خارج شده است. چند ساعت پس از مهار آتشسوزی عملیات تعویض کابل از سوی تیم تاسیسات در مرکز داده آغاز شد.
- ۱۷:۲۵ – ۱۱ فروردین: امکان آپلود ویدیو در پلتفرم ویدیو فراهم شد ولی دسترسی به ویدیوهایی که پیشتر روی دیتاسنتر سیمین قرار داشتند، هنوز ممکن نشده بود.
- ۱۹:۳۰ – ۱۱ فروردین: بنا به اعلام مرکز داده، مشکل پیش آمده برطرف، و مجوز ورود به سایت صادر شد.
- ۲۰:۱۵ – ۱۱ فروردین: تیم فنی آروان وارد سایت شد ولی بلافاصله با اعلام کد هشدار ۲۱ مجبور به ترک مرکز داده و انتقال به نقطهی امن شدند.
- ۲۱:۰۰ – ۱۱ فروردین: با اعلام وضعیت سفید تیم فنی آروان مجدد وارد مرکز داده شد و تجهیزات نتورک در مرحله نخست مورد ارزیابی قرار گرفت. در حال بررسی وضعیت تجهیزات و اطمینان از پایداری برق در ساعت ۲۱:۵۰ مجدد اختلال برقی در سطح دیتاسنتر ایجاد و کل برق مرکز داده قطع شد. با هدایت حراست دیتاسنتر میزبان، تیمهای فنی مجدد از سایت خارج شدند تا بررسی و حل مشکل آغاز شود. طبق اعلام تیم فنی میزبان دیتاسنتر در این مرحله در مسیر اصلاح شدهی برق، خطایی مجدد اتفاق افتاد.
- ۲۲:۳۰ – ۱۱ فروردین: مشکل حل و مجدد تیمهای فنی برای ادامهی کار وارد سایت شدند. پس از پایداری برق و نتورک متناسب با DRP ، مراحل روشن کردن تجهیزات و رفع خرابیهای بهوجود آمده، بهشکل گام به گام انجام شد. در این فاصله چند بار بهعلت هشدارهای امنیتی و اعلام کد تخلیه مجبور به ترک سایت و بازگشت مجدد شدیم.
- ۴:۳۰ – ۱۲ فروردین: تمامی سرورهای کلاستر محصول آبجکتاستوریج بهشکل عملیاتی روشن و تحویل تیم محصولی شدند تا فرآیند ریکاوری و بازگردانی داده را آغاز کنند. تعدادی از دیسکهای ذخیرهسازی بهدلیل شوکهای حادثه دچار خرابی بودند که همگی تعویض شدند.
- ۵:۳۰ – ۱۲ فروردین: سرورهای زیرساخت ابری بهشکل عملیاتی در آمده و تحویل تیمهای محصولی شدند تا اقدامات لازم برای بازگردانی داده و اتصال مشترکان را آغاز شود.
- ۶:۰۰ – ۱۲ فروردین: با اعلام وضعیت قرمر منطقه در ساعت ۶، مرکز داده مجدد تخلیه و ادامه اقدامات بهشکل ریموت از سر گرفته شد.
- ۰۸:۱۸ – ۱۲ فروردین: دسترسی به محصول سرور ابری پایدار شد.
- ۰۹:۳۸ – ۱۲ فروردین: پنل و API محصول سرور ابری، میرور ریپازیتوریهای لینوکس و کتابخانهها دردسترس مشتریان قرار گرفت.
- ۱۰:۱۳ – ۱۲ فرروردین: پنل و API محصول دیتابیس ابری پایدار شد و دردسترس مشتریان قرار گرفت.
- ۱۵:۵۷ – ۱۲ فرروردین: دسترسی کاربران به بخش ویدیوهای ذخیرهشده در سیمین در پلتفرم ویدیو فراهم شد.
- ۱۶:۰۰ – ۱۲ فرروردین: دسترسی کاربران به دادههای روی محصول فضای ذخیرهسازی ابری برقرار شد.
- ۱۶:۰۰ – ۱۲ فرروردین: دسترسی کاربران لاگابری به لاگهای ذخیرهشده در این زون فراهم شد.
- ۱۶:۰۱ – ۱۲ فرروردین: پایان حادثه اعلام شد.
تمام مشتریانی که در این حادثه دچار آسب شدند، میتوانند از طریق تیکت درخواست SLA خود را ثبت کنند. آروانکلاد بر اساس «توافقنامهی سطح کیفیت خدمات» نسبت به جبران خدمات اقدام خواهد کرد.



