Web Analytics Made Easy - Statcounter
از کار افتادگی فیسبوک

سه درسی که ازکارافتادگیِ فیسبوک به متخصصان شبکه داد

حتی در کمپانی‌های فوق‌مقیاس مانند فیسبوک، یک اشتباه می‌تواند کل شبکه را از کار بیاندازد. اصلی ترین نکته‌ای که ازکارافتادگی سراسری فیسبوک در سال گذشته به متخصصان می‌‌آموزد، این است که انتظار بدترین اتفاقات ممکن را داشته باشند و برای مواجه با آن برنامه‌ریزی کنند.

در 4 اکتبر 2021، فیسبوک (اکنون متا) و زیرمجموعه‌های آن، از جمله مسنجر فیسبوک، اینستاگرام و واتس‌اپ، از کار افتادند و تقریباً شش ساعت در دسترس نبودند. گمانه‌زنی‌های عمومی به سرعت مطرح شد (بیشتر در توییتر، جایی که کاربران رسانه های اجتماعی در غیاب فیسبوک هجوم آوردند) مبنی بر اینکه ازکارافتادگی ممکن است ناشی از یک خطای BGP* باشد.

* BGP (پروتکل دروازه مرزی) پروتکل زیربنایی سیستم جهانی مسیریابی اینترنت است. این برنامه نحوه مسیریابی پکیج‌های اطلاعات از شبکه‌ای به شبکه را از طریق تبادل اطلاعات مسیریابی و دسترسی بین روترهای لبه مدیریت می کند.

اما، طبق گفته فیسبوک، مشکلات BGP و DNS فقط علائم مشکل واقعی بودند: پیکربندی نادرستی که ارتباط روترهای اصلی شرکت را قطع کرد. به عبارت دیگر، خطای انسانی عامل اصلی این اتفاق بود.

از کار افتادگی سرورهای فیسبوک در سال ۲۰۲۱ چه نکاتی را به سازمان‌ها یادآور می شود؟

۱. انتظار بدترین‌ها را داشته باشید

بدبینی خلاقانه می‌تواند یک ویژگی عالی برای جلوگیری از مشکلات اساسی باشد. اندرو لرنر کارشناس گارتنر به متخصصان فناوری اطلاعات پیشنهاد می‌کند که همواره به دنبال نقاط خطای احتمالی در شبکه های خود باشند. برای مثال، اگر سازمانی برای عیب‌یابی شبکه به یک پلتفرم امنیتی خاص متکی باشد، باید در نظر بگیرد که اگر آن منبع در دسترس نباشد چه اتفاقی می‌افتد. سایر نقاط رایج خطا عبارتند از سیستم احراز هویت و مانند مورد فیسبوک، DNS.

۲. برای بدترین‌ها برنامه‌ریزی کنید

سناریوی فیسبوک نشان می‌دهد که شرکت ها باید به دنبال روشی برای بازیابی فاجعه باشند و به این سوال پاسخ دهند «اگر زیرساخت ما قابل استفاده نباشد، چه باید کرد؟»

۳. برنامه‌ها را تست کنید

متأسفانه اکثر سازمان‌ها از تست شکست بدشان می‌آید و از آن اجتناب می‌کنند. زیرا چنین تمرین‌هایی نیاز به آماده‌سازی گسترده دارند، و تیم‌های شبکه اغلب نگران هستند که این تمرین‌ها منجر به ازکارافتادگی‌های واقعی شود. اسلاتری کارشناس شرکت NetCraftsmen در این باره می‌گوید:« اگر نمی‌توانید با خطاهایی که خودتان سازماندهی کرده‌اید کنار بیایید، رسیدگی به یک وضعیت اضطرار واقعی برایتان غیرممکن خواهد بود!»

لرنر در این باره می‌گوید: « شرکت‌ها معمولاً تمایل به ایجاد دوره‌های طولانی دسترسی که هیچ مشکلی رخ نمی‌دهد، دارند. این استراتژی نادرست است، زیرا این دوره‌ها بی‌ثباتی و شکنندگی بطن کار را می‌پوشانند و هنگامی که درنهایت یک خطا رخ می‌دهد، یک اثر دومینویی خواهد داشت. علت بیشتر ازکارافتادگی‌های غیرقابل کنترل، همین خطاهای پی‌دریی و دومینویی هستند.»