آروان‌کلاد

امروز ۱۳ آبان ۹۸ از ساعت ۱۵:۳۸ تا ۱۶:۱۸ سرویس DNS ابر آروان با اختلال شدیدی مواجه شد که منجر به از دسترس خارج شدن بسیاری از وب‌سایت‌ها شد.

اختلال برای هر سرویس اینترنتی یک خسران و برای شرکت‌های زیرساختی دارای ابعاد بسیار گسترده‌تری است، ما آگاهیم که بروز چنین رخداد‌هایی چه‌طور می‌تواند اعتماد کاربران را خدشه‌دار  و به کسب‌وکارهای مختلفی که به ابر آروان اعتماد کرده‌اند، خسارت‌ وارد کند.

پوزش خواستن از مشتریان، پاسخ‌گویی و تعهد به قراردادهای جبران خدمات، اعلام شفاف علت‌های بروز این حادثه و بیان دقیق اقدامات ابر آروان در راستای جلوگیری از تکرار این چنین حوادثی را جزو وظایف خود می‌دانیم و این بیانیه در راستای تعهد حرفه‌ای ابر آروان منتشر شده است.

به گزارش تیم فنی ابر آروان دلیل این اختلال یک اشتباه انسانی در فرآیند Deployment نسل جدید مجموعه سرویس‌های امنیت ابری بوده است. وجود یک تداخل در ساختار Configuration Management و Automatic Deployment نسل جدید سرویس امنیت ابری و نسخه‌ی پایدار (فعلی) DNS ابر آروان باعث حذف تنظیمات از روی سرورهای لبه شد.

شبکه ابر آروان از یک ساختار Multi Master – Multi Agent استفاده می‌کند که به‌کمک آن و از طریق یک Distributed Key-Value Store از یکپارچگی تنظیمات در تمام نقاط دنیا اطمینان پیدا می‌کند. حذف تنظیمات دامنه‌ها از روی تمام Masterها موجب Sync بلافاصله‌ی سرورهای لبه و حذف تنظیمات از روی آن‌ها شد، که در نتیجه سرورهای لبه‌ی DNS امکان پاسخ‌گویی به درخواست‌ها را از دست دادند.

این اختلال در ساعت ۱۵:۳۵ آغاز و تا ۱۵:۴۰ (به‌مدت ۵ دقیقه) به‌شکل سراسری شبکه را متاثر کرد. پس از ۵ دقیقه با تشخیص دقیق مشکل پیش آمده، فرآیند بازسازی و تولید تنظیمات دامنه‌ها آغاز شد. سرورهای مستر، تنظیمات هر دامنه را از پایگاه داده بازخوانی کرده و با ورود این اطلاعات به Distributed Key-Value Store فرآیند Sync سرورهای لبه آغاز شد. با یکپارچه شدن تنظیمات در تمام سرورها و اطمینان از رفع کامل مشکل در ساعت ۱۶:۱۸ مشکل از سمت ابر آروان به‌طور کامل برطرف شد.

کاربرانی که از DNS سرورهای ۴.۲.۲.۴ و ۴.۲.۲.۲ استفاده می‌کردند، دقایق بیش‌تری اختلال را احساس کردند، طولانی‌تر شدن این اختلال به‌دلیل مشکل به‌روزرسانی name serverهای شرکت level3 بوده است. در این مدت این شرکت یک آدرس تبلیغاتی را به‌عنوان پاسخ به کاربران برمی‌گرداند.

پس از رفع کامل اشکال، تیم فنی جلسه‌ی کالبد شکافی (Post Mortem) را برگزار کرد؛ در این جلسه موارد زیر مطرح شد:

  • بررسی عمیق مشکل و روش‌های جلوگیری از بروز مجدد آن
  • اصلاح سناریوی دیزستر ریکاوری
  • توقف دیپلویمنت به‌مدت دو هفته برای اصلاح فرآیند و جلوگیری از اشتباه انسانی

 

آگاهیم که این اختلال در سطوح متفاوت مشتریان ابر آروان را تحت تاثیر قرار داده است و وظیفه‌ی خود می‌دانیم که در برابر این مشکل پاسخ‌گو باشیم.

ابر آروان با بالاترین سقف جبران خدمات (SLA) به میزان ۱۰ برابر مدت زمان قطعی سرویس یعنی معادل ۴۰۰ دقیقه، حساب تمامی مشتریان را متناسب با سطح مصرف سرویس‌شان شارژ می‌کند. این شارژ تا ساعت ۲۴ امشب ۱۳ آبان ۱۳۹۸ به اعتبار حساب مشتریان افزوده خواهد شد.

گفتنی است، این جبران خدمات حتا برای مشتریانی که مشمول SLA نبودند نیز اعمال می‌شود.

به‌علاوه، تمام تلاش‌مان را به‌کار خواهیم گرفت تا با پیش‌بینی اتفاقات احتمالی در آینده و راه‌حل‌های آن، از بروز چنین رخدادهایی پیش‌گیری کنیم.

از این‌که با شکیبایی‌تان ما را همراهی کردید سپاس‌گزاریم.

ارسال پاسخ

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

17 دیدگاه

  • Avatar for زئوس
    ۱۳ آبان ۱۳۹۸ at ۱۰:۳۱ ب٫ظ

    حدود دو سالی میشه که دارم از خدمات اروان استفاده میکنم ، تا حالا همچین اخلال گسترده ای رو ندیده بودم اول فکر کردم سرورهای سایت دان شدن بعد متوجه شدم دی ان اس ها از کار افتاده ، جز صبر کار دیگه ای نمیشد کرد.
    امیدوارم که در اینده شاهد چنین اتفاقاتی نباشیم، موفق و پیرز باشید.
    در ضمن همچنان به استفاده و حمایت از خدمات بومی آروان ادامه خواهیم داد

  • Avatar for علی حقیقت جو
    ۱۳ آبان ۱۳۹۸ at ۱۰:۳۷ ب٫ظ

    اگرچه مشتری شرکت شما نیستیم
    اما دیدن چنین تعهد، شفافیت و جراتی که به خرج دادید تحسین برانگیز است
    برای مشکل پیش آمده متاسفیم، اما عمیقا امیدواریم پیشرفت روزافزون تان را ببینیم.

  • Avatar for سعید
    سعید
    ۱۳ آبان ۱۳۹۸ at ۱۰:۴۱ ب٫ظ

    سلام خیلی خوبه که موارد رو شفاف سازی کردید. بهتره از ابزار های دوآپس زیرساخت برای ایجاد حلقه ای برای جلوگیری از خطای انسانی استفاده کنید و سرورهاتون رو از مرحله توسعه تا رسیدن به پروداکشن با رویکرد دوآپس مدیریت کنید. قطعا دوآپس در بخش توسعه نرم افزارتون وجود داره و میتونید همین رو در زیرساختتون هم داشته باشید.

  • Avatar for سیامک
    سیامک
    ۱۳ آبان ۱۳۹۸ at ۱۱:۲۱ ب٫ظ

    با سلام و تشکر از شما بابت اطلاع رسانی دقیق و مو شکافانه خودتون

    سوالی که برای من پیش آمده اینه که قطعا در شرکت های کلود هاستینگ بزرگ جهان هم امکان خطاهای انسانی وجود داره، و باید از تجربیات اونها برای جلوگیری از رخداد مجدد این مسایل استفاده کرد. آیا بررسی کردید که چه راه حلی برای جلوگیری از مشکلات دیپلویمنت در این شرکت ها استفاده میشه؟

    سوال بعدی اینکه من مدتیه که روی سرویس dadi.cloud تحقیق میکنم که تغییر نام داده به edge.network و یک سرویس کلود بیس بر روی شبکه بلاک چین هست و وعده میده که سرویس های کلود رو به شکل غیر متمرکز ارائه میده. بدیهیه که شما مزیت های بلاک چین رو میدونید، و اینکه با چنین ساختاری بشه خطاهایی رو پوشش داد خیلی جذابه، آیا شما در تیم تحقیق و توسعه خودتون بر روی کاربرد بلاک چین در کلود هاستینگ کار کردید؟

    ممنون

  • Avatar for یک دوست آروانی
    یک دوست آروانی
    ۱۳ آبان ۱۳۹۸ at ۱۱:۳۷ ب٫ظ

    قبل از خوندن مقاله؛پست های توییتر فرهاد و پویا رو دیدم و چقدر دلم از ناراحتی شما گرفت.چقدر ناراحت شدم که میبینم آروان امروز تحت فشار بوده و کیفیت سرویسش افت کرده.

    اما چند نکته:
    بروز چنین مشکلاتی اجتناب ناپذیره.باید تجربه بشه تا پخته تر بشین.پس اشکال نداره …. 🙂
    بروز مشکل؛نظم و سازماندهای و پروسه های مدیریت بحران رو بهبود میده و به قوی تر شدنتون کمک میکنه.

    به این فکر میکنم اگر ساعت ۳ شب مشکل بروز پیدا کرده بود؛آیا حل مشکل باز هم ۴۰ دقیقه طول میکشید؟؟به این بخش فکر کنید.

    خوشحال میشم بدونم فرهنگ برخوردتون با فرد(یا افرادی) که در بروز مشکل موثر بودند رو بیان کنید.شکی نیست که برخوردتون همراه با منطق و حرفه ای گری بوده؛اما دوست داشتم این وجه از فرهنگ سازمانیتون رو هم بدونم.

    پایدار و سربلند باشید-خدانگهدار

  • Avatar for arash
    arash
    ۱۴ آبان ۱۳۹۸ at ۴:۳۹ ق٫ظ

    ساعت انجام این تغییرات در شبکه مناسب نیست. فکر کنم ساعات off-peak بهتری میشد انتخاب کرد

  • Avatar for احمد
    احمد
    ۱۴ آبان ۱۳۹۸ at ۶:۵۳ ق٫ظ

    قابل قبول نیست

  • Avatar for سهراب
    سهراب
    ۱۴ آبان ۱۳۹۸ at ۱۰:۰۱ ق٫ظ

    متاسفانه شارژ به حساب من اضافه نشده …
    البته این موضوع رو نگفتم که بخوام شارژ رو از شما پیگیری کنم. چون فقط از شبکه توزیع محتوای شما استفاده می‌کنم و فاکتورهای پرداختیم بر اساس زمان محاسبه نمیشن … قبول دارم که 400 دقیقه شارژ برای شما هزینه زیادیه ولی برای مشتریانتون جبران نیست.
    تنشی که در لحظه قطع سرویس‌ها ما به ما وارد میشه و زمانی که برای پیگیری این مشکلات صرف می‌کنیم. هزینه از دست رفته کمپین‌های تبلیغاتی ما در زمان اختلال، سفارشاتی که در زمان قطع سرویس‌ها به علت عدم اعتماد برای همیشه از دست میرن، نارضایتی کاربران از ما و چیزی که تو ذهنشون می‌مونه، … همه و همه در کنار هم باعث میشن که 400 دقیقه شارژ به چشم نیاد.
    احتمالا این کامنت رو پاک می‌کنید … می‌تونستم این موضوع رو در تیکت پشتیبانی بنویسم ولی چون قطعی خدمات شما علنی بود به خودم حق دادم که این حرف‌ها رو علنی بیان کنم.

  • Avatar for حسینی تبار
    ۱۴ آبان ۱۳۹۸ at ۱۱:۴۶ ق٫ظ

    سپاس از گزارش و شفاف سازی شما، این گزارشات مشتریان را دلگر م می کند که در صورت بروز موارد این چنینی نظارت درستی بوده و سیستم تحت کنترل هست، چقدر خوشحالم که میتونم سامانه فوق تخصصی ایرانی را به خیال آسوده جایگزین سیستم مشابه خارجی کنم و ما خیلی از وب سایت هامون رو به آروان منتقل کردیم و به این انتقال ها حتما ادامه میدیم، خسته نباشید میگم و خداقوت

  • Avatar for امین
    ۱۴ آبان ۱۳۹۸ at ۲:۳۷ ب٫ظ

    سلام
    در خطوط آخر ، غلط املایی را بهتر است اصلاح کنید ، اونجا که نوشتید :
    “گفتنی است، این جبران خدمات حتا برای مشتریانی که مشمول SLA نبودند نیز اعمال می‌شود. ”
    حتا => حتی

    موفق باشید

  • Avatar for وبمسترفا
    ۲۰ آبان ۱۳۹۸ at ۱:۴۷ ق٫ظ

    واقعا دمتون گرم
    موضوع رو خوب مدیریت کردید.
    ولی یه لحظه فکر کردیم کل اینترنت ایران قطع کردن

  • Avatar for مجید مقدم
    ۲۴ آبان ۱۳۹۸ at ۴:۲۵ ق٫ظ

    میخاستم سایتم رو از کلود فلیر بیارم رو سرویس های شما اما ، نظرم عوض شد. هر زمان دیدم در مقابل حملات دیداس ، مقاوم شدید ، اون موقع در موردش تصمیم میگیرم .وقتی نتونتید در مقابل دیداس مقاومت کنید ، عملا فایده ای برای مشتری نخواهد داشت خدمات تون.

  • Avatar for نوید اباذری
    نوید اباذری
    ۲۴ آبان ۱۳۹۸ at ۲:۲۴ ب٫ظ

    با تشکر از خدمات پس از فروش و پیگیری های حرفه ای شما اما متاسفانه من نمیتونم ریسک حتی 1 دقیقه پایین آمدن مازاد بر ریسک های موجود نظیر پایین امدن سرور یا … را داشته باشم زیرا کارفرماهایی که دام عمدتا مکاتبات مهم و یا تبلیغات دارند و کل فعالیت من در خطر قرار میگیرد حداقل در این ایام امیدوارم که قابلیت اطمینان سیستم ها بالاتر برود و ریسک قطعی و یا اختلال در سامانه آروان کاهش یابد و نوع تعاملات و تعهدات ما نیز با کارفرمایان بر مبنای ریسک های موجود پایه ریزی شود

  • Avatar for دیجیلا
    ۲۵ آبان ۱۳۹۸ at ۱۲:۲۶ ب٫ظ

    حملات توزیع شده گسترده هر سرویسی رو از کار میندازن و این موضوع رو همه میدونن. اینکه توی مدت کوتاهی پیگری کردید و شفاف سازی کردید واقعا تحسین برانگیزه اما همچنان باید به فکر ارتقای سطح امنیتی ابراروان باشید . با آرزوی موفقیت برای ابرآروان

  • Avatar for علی
    ۲۸ آبان ۱۳۹۸ at ۹:۲۱ ب٫ظ

    از اینکه خیلی صادقانه مساله را توضیح و اشتباه خود را پذیرفته و در سدد جبران خسرات بر آمدید به شما تبریک می‌گویم.

  • Avatar for حسین
    ۷ آذر ۱۳۹۸ at ۱:۳۹ ب٫ظ

    دوست عزیز بعضی از نویسنده‌ها کلمه‌ها را آن‌گونه که “خانده” می‌شوند، می‌نویسند. “حتا” به نظرم با آگاهی نوشته شده‌است. من هم این‌گونه می‌نویسم. وقتی می‌بینید در متنی از “نیم‌فاصله” استفاده شده است، معمولن نویسنده دقت بالایی داشته‌است.

  • Avatar for سایت پرسش و پاسخ و مشاوره پاسخجو

    ما سرویس های شمارو تست کردیم و از لحاظ سرعت فرقی نکرد ، چه دلایلی میتونه داشته باشه ؟ سایت وردپرسیه و رو هاست ایرانه.