حتی در کمپانیهای فوقمقیاس مانند فیسبوک، یک اشتباه میتواند کل شبکه را از کار بیاندازد. اصلی ترین نکتهای که ازکارافتادگی سراسری فیسبوک در سال گذشته به متخصصان میآموزد، این است که انتظار بدترین اتفاقات ممکن را داشته باشند و برای مواجه با آن برنامهریزی کنند.
در 4 اکتبر 2021، فیسبوک (اکنون متا) و زیرمجموعههای آن، از جمله مسنجر فیسبوک، اینستاگرام و واتساپ، از کار افتادند و تقریباً شش ساعت در دسترس نبودند. گمانهزنیهای عمومی به سرعت مطرح شد (بیشتر در توییتر، جایی که کاربران رسانه های اجتماعی در غیاب فیسبوک هجوم آوردند) مبنی بر اینکه ازکارافتادگی ممکن است ناشی از یک خطای BGP* باشد.
* BGP (پروتکل دروازه مرزی) پروتکل زیربنایی سیستم جهانی مسیریابی اینترنت است. این برنامه نحوه مسیریابی پکیجهای اطلاعات از شبکهای به شبکه را از طریق تبادل اطلاعات مسیریابی و دسترسی بین روترهای لبه مدیریت می کند.
اما، طبق گفته فیسبوک، مشکلات BGP و DNS فقط علائم مشکل واقعی بودند: پیکربندی نادرستی که ارتباط روترهای اصلی شرکت را قطع کرد. به عبارت دیگر، خطای انسانی عامل اصلی این اتفاق بود.
از کار افتادگی سرورهای فیسبوک در سال ۲۰۲۱ چه نکاتی را به سازمانها یادآور می شود؟
۱. انتظار بدترینها را داشته باشید
بدبینی خلاقانه میتواند یک ویژگی عالی برای جلوگیری از مشکلات اساسی باشد. اندرو لرنر کارشناس گارتنر به متخصصان فناوری اطلاعات پیشنهاد میکند که همواره به دنبال نقاط خطای احتمالی در شبکه های خود باشند. برای مثال، اگر سازمانی برای عیبیابی شبکه به یک پلتفرم امنیتی خاص متکی باشد، باید در نظر بگیرد که اگر آن منبع در دسترس نباشد چه اتفاقی میافتد. سایر نقاط رایج خطا عبارتند از سیستم احراز هویت و مانند مورد فیسبوک، DNS.
۲. برای بدترینها برنامهریزی کنید
سناریوی فیسبوک نشان میدهد که شرکت ها باید به دنبال روشی برای بازیابی فاجعه باشند و به این سوال پاسخ دهند «اگر زیرساخت ما قابل استفاده نباشد، چه باید کرد؟»
۳. برنامهها را تست کنید
متأسفانه اکثر سازمانها از تست شکست بدشان میآید و از آن اجتناب میکنند. زیرا چنین تمرینهایی نیاز به آمادهسازی گسترده دارند، و تیمهای شبکه اغلب نگران هستند که این تمرینها منجر به ازکارافتادگیهای واقعی شود. اسلاتری کارشناس شرکت NetCraftsmen در این باره میگوید:« اگر نمیتوانید با خطاهایی که خودتان سازماندهی کردهاید کنار بیایید، رسیدگی به یک وضعیت اضطرار واقعی برایتان غیرممکن خواهد بود!»
لرنر در این باره میگوید: « شرکتها معمولاً تمایل به ایجاد دورههای طولانی دسترسی که هیچ مشکلی رخ نمیدهد، دارند. این استراتژی نادرست است، زیرا این دورهها بیثباتی و شکنندگی بطن کار را میپوشانند و هنگامی که درنهایت یک خطا رخ میدهد، یک اثر دومینویی خواهد داشت. علت بیشتر ازکارافتادگیهای غیرقابل کنترل، همین خطاهای پیدریی و دومینویی هستند.»