امروز ۱۳ آبان ۹۸ از ساعت ۱۵:۳۸ تا ۱۶:۱۸ سرویس DNS ابر آروان با اختلال شدیدی مواجه شد که منجر به از دسترس خارج شدن بسیاری از وبسایتها شد.
اختلال برای هر سرویس اینترنتی یک خسران و برای شرکتهای زیرساختی دارای ابعاد بسیار گستردهتری است، ما آگاهیم که بروز چنین رخدادهایی چهطور میتواند اعتماد کاربران را خدشهدار و به کسبوکارهای مختلفی که به ابر آروان اعتماد کردهاند، خسارت وارد کند.
پوزش خواستن از مشتریان، پاسخگویی و تعهد به قراردادهای جبران خدمات، اعلام شفاف علتهای بروز این حادثه و بیان دقیق اقدامات ابر آروان در راستای جلوگیری از تکرار این چنین حوادثی را جزو وظایف خود میدانیم و این بیانیه در راستای تعهد حرفهای ابر آروان منتشر شده است.
به گزارش تیم فنی ابر آروان دلیل این اختلال یک اشتباه انسانی در فرآیند Deployment نسل جدید مجموعه سرویسهای امنیت ابری بوده است. وجود یک تداخل در ساختار Configuration Management و Automatic Deployment نسل جدید سرویس امنیت ابری و نسخهی پایدار (فعلی) DNS ابر آروان باعث حذف تنظیمات از روی سرورهای لبه شد.
شبکه ابر آروان از یک ساختار Multi Master – Multi Agent استفاده میکند که بهکمک آن و از طریق یک Distributed Key-Value Store از یکپارچگی تنظیمات در تمام نقاط دنیا اطمینان پیدا میکند. حذف تنظیمات دامنهها از روی تمام Masterها موجب Sync بلافاصلهی سرورهای لبه و حذف تنظیمات از روی آنها شد، که در نتیجه سرورهای لبهی DNS امکان پاسخگویی به درخواستها را از دست دادند.
این اختلال در ساعت ۱۵:۳۵ آغاز و تا ۱۵:۴۰ (بهمدت ۵ دقیقه) بهشکل سراسری شبکه را متاثر کرد. پس از ۵ دقیقه با تشخیص دقیق مشکل پیش آمده، فرآیند بازسازی و تولید تنظیمات دامنهها آغاز شد. سرورهای مستر، تنظیمات هر دامنه را از پایگاه داده بازخوانی کرده و با ورود این اطلاعات به Distributed Key-Value Store فرآیند Sync سرورهای لبه آغاز شد. با یکپارچه شدن تنظیمات در تمام سرورها و اطمینان از رفع کامل مشکل در ساعت ۱۶:۱۸ مشکل از سمت ابر آروان بهطور کامل برطرف شد.
کاربرانی که از DNS سرورهای ۴.۲.۲.۴ و ۴.۲.۲.۲ استفاده میکردند، دقایق بیشتری اختلال را احساس کردند، طولانیتر شدن این اختلال بهدلیل مشکل بهروزرسانی name serverهای شرکت level3 بوده است. در این مدت این شرکت یک آدرس تبلیغاتی را بهعنوان پاسخ به کاربران برمیگرداند.
پس از رفع کامل اشکال، تیم فنی جلسهی کالبد شکافی (Post Mortem) را برگزار کرد؛ در این جلسه موارد زیر مطرح شد:
- بررسی عمیق مشکل و روشهای جلوگیری از بروز مجدد آن
- اصلاح سناریوی دیزستر ریکاوری
- توقف دیپلویمنت بهمدت دو هفته برای اصلاح فرآیند و جلوگیری از اشتباه انسانی
آگاهیم که این اختلال در سطوح متفاوت مشتریان ابر آروان را تحت تاثیر قرار داده است و وظیفهی خود میدانیم که در برابر این مشکل پاسخگو باشیم.
ابر آروان با بالاترین سقف جبران خدمات (SLA) به میزان ۱۰ برابر مدت زمان قطعی سرویس یعنی معادل ۴۰۰ دقیقه، حساب تمامی مشتریان را متناسب با سطح مصرف سرویسشان شارژ میکند. این شارژ تا ساعت ۲۴ امشب ۱۳ آبان ۱۳۹۸ به اعتبار حساب مشتریان افزوده خواهد شد.
گفتنی است، این جبران خدمات حتا برای مشتریانی که مشمول SLA نبودند نیز اعمال میشود.
بهعلاوه، تمام تلاشمان را بهکار خواهیم گرفت تا با پیشبینی اتفاقات احتمالی در آینده و راهحلهای آن، از بروز چنین رخدادهایی پیشگیری کنیم.
از اینکه با شکیباییتان ما را همراهی کردید سپاسگزاریم.
17 دیدگاه
حدود دو سالی میشه که دارم از خدمات اروان استفاده میکنم ، تا حالا همچین اخلال گسترده ای رو ندیده بودم اول فکر کردم سرورهای سایت دان شدن بعد متوجه شدم دی ان اس ها از کار افتاده ، جز صبر کار دیگه ای نمیشد کرد.
امیدوارم که در اینده شاهد چنین اتفاقاتی نباشیم، موفق و پیرز باشید.
در ضمن همچنان به استفاده و حمایت از خدمات بومی آروان ادامه خواهیم داد
اگرچه مشتری شرکت شما نیستیم
اما دیدن چنین تعهد، شفافیت و جراتی که به خرج دادید تحسین برانگیز است
برای مشکل پیش آمده متاسفیم، اما عمیقا امیدواریم پیشرفت روزافزون تان را ببینیم.
سلام خیلی خوبه که موارد رو شفاف سازی کردید. بهتره از ابزار های دوآپس زیرساخت برای ایجاد حلقه ای برای جلوگیری از خطای انسانی استفاده کنید و سرورهاتون رو از مرحله توسعه تا رسیدن به پروداکشن با رویکرد دوآپس مدیریت کنید. قطعا دوآپس در بخش توسعه نرم افزارتون وجود داره و میتونید همین رو در زیرساختتون هم داشته باشید.
با سلام و تشکر از شما بابت اطلاع رسانی دقیق و مو شکافانه خودتون
سوالی که برای من پیش آمده اینه که قطعا در شرکت های کلود هاستینگ بزرگ جهان هم امکان خطاهای انسانی وجود داره، و باید از تجربیات اونها برای جلوگیری از رخداد مجدد این مسایل استفاده کرد. آیا بررسی کردید که چه راه حلی برای جلوگیری از مشکلات دیپلویمنت در این شرکت ها استفاده میشه؟
سوال بعدی اینکه من مدتیه که روی سرویس dadi.cloud تحقیق میکنم که تغییر نام داده به edge.network و یک سرویس کلود بیس بر روی شبکه بلاک چین هست و وعده میده که سرویس های کلود رو به شکل غیر متمرکز ارائه میده. بدیهیه که شما مزیت های بلاک چین رو میدونید، و اینکه با چنین ساختاری بشه خطاهایی رو پوشش داد خیلی جذابه، آیا شما در تیم تحقیق و توسعه خودتون بر روی کاربرد بلاک چین در کلود هاستینگ کار کردید؟
ممنون
قبل از خوندن مقاله؛پست های توییتر فرهاد و پویا رو دیدم و چقدر دلم از ناراحتی شما گرفت.چقدر ناراحت شدم که میبینم آروان امروز تحت فشار بوده و کیفیت سرویسش افت کرده.
اما چند نکته:
بروز چنین مشکلاتی اجتناب ناپذیره.باید تجربه بشه تا پخته تر بشین.پس اشکال نداره …. 🙂
بروز مشکل؛نظم و سازماندهای و پروسه های مدیریت بحران رو بهبود میده و به قوی تر شدنتون کمک میکنه.
به این فکر میکنم اگر ساعت ۳ شب مشکل بروز پیدا کرده بود؛آیا حل مشکل باز هم ۴۰ دقیقه طول میکشید؟؟به این بخش فکر کنید.
خوشحال میشم بدونم فرهنگ برخوردتون با فرد(یا افرادی) که در بروز مشکل موثر بودند رو بیان کنید.شکی نیست که برخوردتون همراه با منطق و حرفه ای گری بوده؛اما دوست داشتم این وجه از فرهنگ سازمانیتون رو هم بدونم.
پایدار و سربلند باشید-خدانگهدار
ساعت انجام این تغییرات در شبکه مناسب نیست. فکر کنم ساعات off-peak بهتری میشد انتخاب کرد
قابل قبول نیست
متاسفانه شارژ به حساب من اضافه نشده …
البته این موضوع رو نگفتم که بخوام شارژ رو از شما پیگیری کنم. چون فقط از شبکه توزیع محتوای شما استفاده میکنم و فاکتورهای پرداختیم بر اساس زمان محاسبه نمیشن … قبول دارم که 400 دقیقه شارژ برای شما هزینه زیادیه ولی برای مشتریانتون جبران نیست.
تنشی که در لحظه قطع سرویسها ما به ما وارد میشه و زمانی که برای پیگیری این مشکلات صرف میکنیم. هزینه از دست رفته کمپینهای تبلیغاتی ما در زمان اختلال، سفارشاتی که در زمان قطع سرویسها به علت عدم اعتماد برای همیشه از دست میرن، نارضایتی کاربران از ما و چیزی که تو ذهنشون میمونه، … همه و همه در کنار هم باعث میشن که 400 دقیقه شارژ به چشم نیاد.
احتمالا این کامنت رو پاک میکنید … میتونستم این موضوع رو در تیکت پشتیبانی بنویسم ولی چون قطعی خدمات شما علنی بود به خودم حق دادم که این حرفها رو علنی بیان کنم.
سپاس از گزارش و شفاف سازی شما، این گزارشات مشتریان را دلگر م می کند که در صورت بروز موارد این چنینی نظارت درستی بوده و سیستم تحت کنترل هست، چقدر خوشحالم که میتونم سامانه فوق تخصصی ایرانی را به خیال آسوده جایگزین سیستم مشابه خارجی کنم و ما خیلی از وب سایت هامون رو به آروان منتقل کردیم و به این انتقال ها حتما ادامه میدیم، خسته نباشید میگم و خداقوت
سلام
در خطوط آخر ، غلط املایی را بهتر است اصلاح کنید ، اونجا که نوشتید :
“گفتنی است، این جبران خدمات حتا برای مشتریانی که مشمول SLA نبودند نیز اعمال میشود. ”
حتا => حتی
موفق باشید
واقعا دمتون گرم
موضوع رو خوب مدیریت کردید.
ولی یه لحظه فکر کردیم کل اینترنت ایران قطع کردن
میخاستم سایتم رو از کلود فلیر بیارم رو سرویس های شما اما ، نظرم عوض شد. هر زمان دیدم در مقابل حملات دیداس ، مقاوم شدید ، اون موقع در موردش تصمیم میگیرم .وقتی نتونتید در مقابل دیداس مقاومت کنید ، عملا فایده ای برای مشتری نخواهد داشت خدمات تون.
با تشکر از خدمات پس از فروش و پیگیری های حرفه ای شما اما متاسفانه من نمیتونم ریسک حتی 1 دقیقه پایین آمدن مازاد بر ریسک های موجود نظیر پایین امدن سرور یا … را داشته باشم زیرا کارفرماهایی که دام عمدتا مکاتبات مهم و یا تبلیغات دارند و کل فعالیت من در خطر قرار میگیرد حداقل در این ایام امیدوارم که قابلیت اطمینان سیستم ها بالاتر برود و ریسک قطعی و یا اختلال در سامانه آروان کاهش یابد و نوع تعاملات و تعهدات ما نیز با کارفرمایان بر مبنای ریسک های موجود پایه ریزی شود
حملات توزیع شده گسترده هر سرویسی رو از کار میندازن و این موضوع رو همه میدونن. اینکه توی مدت کوتاهی پیگری کردید و شفاف سازی کردید واقعا تحسین برانگیزه اما همچنان باید به فکر ارتقای سطح امنیتی ابراروان باشید . با آرزوی موفقیت برای ابرآروان
از اینکه خیلی صادقانه مساله را توضیح و اشتباه خود را پذیرفته و در سدد جبران خسرات بر آمدید به شما تبریک میگویم.
دوست عزیز بعضی از نویسندهها کلمهها را آنگونه که “خانده” میشوند، مینویسند. “حتا” به نظرم با آگاهی نوشته شدهاست. من هم اینگونه مینویسم. وقتی میبینید در متنی از “نیمفاصله” استفاده شده است، معمولن نویسنده دقت بالایی داشتهاست.
ما سرویس های شمارو تست کردیم و از لحاظ سرعت فرقی نکرد ، چه دلایلی میتونه داشته باشه ؟ سایت وردپرسیه و رو هاست ایرانه.