جلوگیری از قطعی زیرساختهای دیجیتال برای مراکز داده و مالکان آنها بسیار حائز اهمیت است. مطمئناً بررسی تاریخچه اختلالات میتواند به پیشگیری از وقوع آنها در آینده کمک کند؛ به همین دلیل موسسه Uptime به صورت سالیانه وضعیت قطعی در مراکز داده، علل، هزینهها و پیامدهای آنها را بررسی میکند.
در این مقاله که توسط شرکت پردیس دیبا اندیشان گردآوری شده است، به بررسی مهمترین بخشهای گزارش سالیانه موسسه Uptime در مورد قطعی مراکز داده که در مارس 2024 منتشر شده، خواهیم پرداخت.
موسسه Uptime چگونه قطعی مراکز داده را ردیابی میکند؟
دنبال کردن وقوع قطعی مراکز داده کار سادهای نیست، چرا که مرجع دقیقی برای اندازه گیری آن وجود ندارد؛ از طرفی برخی از قطعیها گزارش میشوند و قابل بررسی هستند و بسیاری دیگر محرمانه باقی میمانند. علاوه بر این برخی از اختلالات ممکن است از سوی کسبوکارها به عنوان قطعی طبقه بندی نشوند.
با این حال موسسه Uptime به طور کلی به سه روش، قطعی مراکز داده را ثبت میکند که در مجموع از دقت خوبی برخوردار است:
1- گزارشهای عمومی: یکی از روشها، پیگیری اخبار و رسانههای اجتماعی، اظهارات شرکتها و ابزارهای ردیاب قطعی است که البته روش کاملاً دقیقی به شمار نمیآید.
2- نظرسنجی: موسسه Uptime همه ساله نظرسنجیهای متعددی برگزار میکند که نظرسنجی در مورد قطعی یکی از آنهاست. با توجه به ناشناس بودن پاسخها، این روش دقت مناسبی دارد.
3- پایگاه داده موسسه Uptime: در این پایگاه داده، اطلاعات دقیق برخی از تأسیسات دنیا تحت یک توافقنامه عدم افشا جمعآوری میشود که از دقت بسیار بالایی برخوردار است.
فراوانی و شدت قطعی مراکز داده جهان
همزمان با گسترش مراکز داده جهان برای پاسخگویی به تقاضای کاربران، در نگاه اول انتظار میرود تعداد کلی قطعیهای مراکز داده افزایش یابد. با این حال دادههای موسسه Uptime، یک روند نزولی را در فراوانی و شدت قطعیها نسبت به رشد کلی فناوری اطلاعات نشان میدهد. این روند چندین سال است که مشاهده میشود.
کاهش کلی تعداد قطعیها
بررسی دادههای جمعآوری شده در طول چندین سال نشان میدهد که تعداد قطعیها نسبت به رشد کلی مراکز داده در حال کاهش است. این موضوع احتمالاً به دلایل زیر باشد:
جلب رضایت کاربران: اگر چه تعداد اختلالات و قطعیها کاهش یافته است، اما نشانهای از رضایت در صنعت وجود ندارد و همچنان صنعت نگران نرخ قطعی است. چرا که قطع خدمات باعث تحمیل هزینههای مالی و آسیب به شهرت مراکزداده میشود. بنابراین دسترسپذیری به طور مداوم یکی از دغدغههای صنعت مراکز داده به شمار میآید و باعث افزایش سرمایهگذاری در این موضوع میشود.
ابر عمومی: حرکت به سمت ابر عمومی به این معنی نیست که قطعی کمتری وجود خواهد داشت. با این حال بروز قطعی در یک مرکز داده ابری به جای چندین مرکز داده در محل، گرچه باعث ثبت تعداد قطعی کمتری از لحاظ تعداد میشود ولی تعداد خدماتی که از دسترس خارج میشود، بیشتر خواهد بود.
تأثیر همهگیری کرونا
همهگیری کووید-19 تأثیر قابل توجهی بر صنعت مراکز داده داشت، به ویژه از نظر تقاضا، فشار بر زنجیرههای تأمین و تحریف نرخ قطعی. این پسلرزهها هنوز هم در سال 2024 احساس میشوند. به عنوان مثال اختلالات زنجیره تأمین هنوز هم وجود دارد که باعث شده بسیاری از سازمانها، تعمیر و نگهداری و ارتقای زیرساخت را به تأخیر بیاندازند. این احتمال وجود دارد که این موضوع به خاطر کاهش قطعی ناشی از نگهداری، به طور موقت نرخ قطعی را کاهش داده باشد اما آثار بازگشتی آن با قطعیهای طولانیتر در میانمدت مشاهده خواهد شد.
تأثیر ناپایداری شبکه
شواهدی وجود دارد که تغییر جهانی به سمت شبکههای برق پویا و تجدیدپذیر، قابلیت اطمینان شبکه را کاهش خواهد داد. بدین ترتیب مراکز داده احتمالاً با افزایش قطعی مواجه شوند. بسیاری از قطعیها زمانی رخ میدهد که یک منبع تغذیه اضطراری یا ژنراتور قادر به پاسخگویی به اختلال طولانیمدت شبکه نباشد.
تأثیرات تغییرات آب و هوایی
حوادث آب و هوایی نظیر دمای بالا یا پایین، بادهای شدید و سیل و آتشسوزی جنگلها که با تغییرات اقلیمی تشدید شدهاند، در چند سال گذشته با قطعی مراکز داده مرتبط بودهاند. این روند احتمالاً در سالهای آتی تشدید خواهد شد و اگر اقدامات پیشگیرانه انجام نشود، خطرات قطعی برق افزایش خواهد یافت.
تأثیر تکنولوژیهای جدید
پیروی صنعت از فناوریها و شیوههای نوین نیاز به مدیریت دقیق دارد. چرا که میتوانند خطرات جدیدی اضافه کنند. به عنوان مثال استفاده از لود بالانسینگ و نرمافزارهای توزیع ترافیک میتواند خطرات خاموشی و تأثیرات مرتبط با آن را در طول زمان کاهش دهد، اما در آغاز، میتواند ریسک قطعی را افزایش دهد. یا استفاده از خنک کننده مایع در سرمایش مراکز داده ممکن است برخی از خطرات حرارتی را کاهش دهد، اما تأثیر آن بر خرابی قطعات، میتواند خطر خاموشی را افزایش دهد.
افزایش ردههای افزونگی در مراکز داده جهان
نظرسنجیهای سالانه موسسه Uptime نشان میدهد علیرغم افزایش عوامل خطر، میزان قطعی در هر مرکز داده در حال کاهش است. اما چه چیزی باعث این کاهش قطعی میشود؟ تحقیقات نشان میدهد که سازمانها هر سال مبالغ بیشتری بر روی ارتقاء افزونگی زیرساخت فیزیکی مراکز داده سرمایهگذاری میکنند.
در حالی که صنعت به سمت مدلهای تابآوری توزیع شده و مبتنی بر نرمافزار حرکت میکند، حفظ و افزایش افزونگی زیرساخت سایت برای اکثر مراکز داده اولویت بسیار بالایی دارد.
علل وقوع قطعی در مراکز داده
تعیین علت اصلی قطع شدن مرکز داده برای جلوگیری از تکرار آن و شناسایی مواردی که نیاز به سرمایهگذاری بیشتری دارند، ضروری است. با این حال به دلیل ماهیت چند وجهی حوادث، ارزیابی این موارد با چالشهایی مواجه است.
گزارشها نشان میدهد که اختلالات در تأمین برق، شایعترین علت قطعیهای تأثیرگذار است. با توجه به عدم تابآوری سختافزارهای فناوری اطلاعات نسبت به هر گونه اختلال برق، مانند نوسانات ولتاژ یا قطعی کامل برق حتی در کسری از ثانیه، این موضوع تعجب آور نیست.
خرابی یا عملکرد ضعیف تجهیزات خنککننده هم دومین عامل اختلال است. با این حال به دلیل مکانیسمهای انتقال حرارتی یا قابلیتهای تغییر مسیر ترافیک شبکه، نسبت به اختلال برق برای مدتهای طولانیتر تحمل میشود و اغلب در مقیاس دقیقه اندازهگیری میشود.
مشکلات ناشی از شرکتهای شخص ثالث هم با افزایش پنجدرصدی تقریباً علت قطعی یک مورد از 10 مورد خاموشی به حساب میآید. این موضوع نشاندهنده اتکای بیشتر سازمانها به ابر عمومی و نرمافزار به عنوان یک سرویس (SaaS) است.
موسسه Uptime همچنین در مورد شایعترین علت قطع خدمات فناوری اطلاعات نظرسنجی میکند. طبق این نظرسنجی قطعیهای مربوط به شبکه رایجترین علت قطعی خدمات فناوری اطلاعات است.
بررسی قابلیت اطمینان رایانش ابری و ارائهدهندگان شخص ثالث
خدمات ابری با هدف دستیابی به حداقل میزان قطعی مهندسی شدهاند. ارائهدهندگان خدمات ابر و فناوری اطلاعات، لایههایی از نرمافزار و میانافزار را مستقر میکنند. توزیع استراتژیک ظرفیت در سیستمها، شبکهها و مراکز داده میتوانند بارهای کاری و ترافیک را از مناطقی که مشکل دارند، تغییر مسیر دهند. در نتیجه، این معماریها سطوح بالایی از در دسترس بودن خدمات را به ویژه در مقیاس کلان ارائه میدهند.
با این حال هیچ معماری از شکست مصون نیست. چالشهای ذاتی مرتبط با مدیریت نرمافزارها، دادهها و شبکهها در مقیاس بزرگ به این معنی است که قطعی اجتنابناپذیر است. با توجه به افزایش پذیرش ابر عمومی در صنایع مختلف، این شکستها بر میلیونها کاربر تأثیر میگذارد و توجه رسانهها را به خود جلب میکند.
علیرغم این انتظار که سرویسهای ابری، میزبانی شده و سایر خدمات مبتنی بر اینترنت باید نقش فزایندهای در فناوری اطلاعات شرکت ایفا کنند، اکثر متخصصان برای ارائه برنامهها و دادههای حساس سازمان خود به شرکتهای ثالث محتاط هستند و اعتماد کامل ندارند.
بدین ترتیب تنها یک نفر از هر هفت پاسخدهنده معتفد است ابر عمومی برای تمام بارهای کاری حیاتی سازمان آنها انعطاف پذیر است و حدود 15 درصد هم به ابر عمومی برای هیچ یک از فعالیتهای حیاتی خود اعتقاد ندارند.
در سه سال گذشته بسیاری از سازمانها از استراتژی First-Cloud عقبنشینی کردهاند و رویکردی محتاطانهتر و گزینشی را در پیش گرفتهاند.
همچنین طبق دادههای نظرسنجی Uptime کاهش سرعت مهاجرت شرکتها به ابر پیشبینی شده است.
علل عدم پذیرش ابر برای کاربریهای حیاتی
اکثر سازمانها نگرانی امنیت دادهها را به عنوان مانع اصلی برای افزایش پذیرش ابر عمومی ذکر میکنند. شایان ذکر است تنها یک نفر از 5 نفر پاسخدهندگان تابآوری را به عنوان عامل بازدارنده در پذیرش ابر ذکر میکنند.
این احتمال وجود دارد که نگرانیهای امنیتی سازمانها به دلیل حملات سایبری گسترده به برخی از ارائهدهندگان ابری باشد که در آن سرویسهای زیادی آفلاین شدند و اطلاعات محرمانه به خطر افتاد. در واقع از هر پنج اپراتور یک اپراتور به دلیل ارائهدهنده شخص ثالت دچار اختلال شدهاند.
بررسی قطعی ناشی از اختلال برق در مراکز داده
اختلالات مرتبط با برق اغلب منجر به شدیدترین قطعی در مراکز داده میشود. در حالی که تشخیص و بازیابی برق اغلب سریع است، راهاندازی مجدد تجهیزات فناوری اطلاعات و همگامسازی پایگاههای داده میتواند چندین ساعت طول بکشد؛ آن هم در صورتی که سیستمها پس از قطع برق آسیب ندیده باشند.
مسائل مربوط به قطع برق، شایعترین علت قطعیهای تأثیرگذار برای مراکز داده است، این موضوع همچنین سهم روبهرشدی از قطعیهای کلی را به طور سالانه نشان میدهد.
چالشهای شبکههای برق ممکن است این روند را در سالهای آینده تشدید کند. قابلیت اطمینان شبکه برق، به دلیل ترکیبی از عوامل از جمله قدیمی بودن زیرساختها و سیستمهای انتقال، افزایش تقاضا، از کار افتادن نیروگاههای قدیمیتر، حوادث آب و هوایی و اتکای فزاینده به منابع تجدیدپذیر در معرض تهدید است.
30 درصد از پاسخدهندگان به نظرسنجی از قطعی برق در سایت خود خبر دادند. مشکلات UPS به عنوان شایعترین علت این قطعیها ذکر میشود و از زمانی که این نظرسنجی برگزار میشود همواره این مشکل وجود داشته است.
دلایل متعددی برای قطعی UPS وجود دارد. مهندسان موسسه Uptime موارد زیر را به عنوان رایجترین مشکلات سیستمهای UPS گزارش میکنند:
- فنها اغلب از کار میافتند زیرا معمولاً ارزان و دائم کار هستند. (خرابی یک فن، دستگاه را از کار نمیاندازد اما خرابی چند فن ممکن است آن را از کار بیاندازد)
- خازنهای اسنابر ممکن است در اثر سایش و پارگی از کار بیافتند. نگهداری منظم تعداد خرابیها را کاهش خواهد داد.
- باتریها به دلیل قدیمی بودن خراب میشوند. آنها نیاز به نظارت دقیق و برنامههای تعویض دارند. بسیاری از باتریها توسط تکنسینهای مخرب به اندازه کافی نظارت نمیشوند به همین دلیل از کار میافتند.
- خرابی استک اینورتر کمتر شایع است. این مورد بیشتر در حالت اورلود رخ میدهد.
مشکلات UPS با افزایش سن باتریها بیشتر میشود. بنابراین مشکلات زنجیره تامین میتواند به خرابیهای بیشتری منجر شود.
ژنراتورها قابل اعتماد هستند. اما نیاز به تعمیر و نگهداری برنامهریزی شده و منظم، بررسی سوخت و تست دارند.
سوئیچهای انتقال خودکار (ATS) عموماً قابل اطمینان هستند، اما ممکن است با از دست دادن توان جریان مستقیم به این کنترلها خرابی رخ دهد. علاوه بر آن به دلیل مشکلات مکانیکی مانند فرسوده شدن یاتاقانها یا گیر کردن سوئیچ ممکن است خرابی رخ دهد.
بررسی قطعی ناشی از مشکلات شبکه
مشکلات شبکه باعث شده است که بخش زیادی از قطعی خدمات فناوری اطلاعات در سالهای اخیر رخ دهد. دو عامل رایج قطعی شبکه یا اتصال، اشکال در پیکربندی و اختلال در ارائهدهنده شخص ثالث شبکه است.
گفتنی است با تکامل الگوهای تقاضا، شبکههای مراکز داده نیز دستخوش تغییرات میشوند. استفاده روزافزون از مجازی سازی برای پاسخگویی به این تقاضا، اتکا به اجزای نرمافزاری مانند سیستمهای مدیریت، نظارت و اتوماسیون را افزایش میدهد.
این ابزارها میتوانند به جلوگیری از حوادث مرتبط از خطای انسانی کمک کنند. با این حال، هنگامی که تغییرات شبکه رخ میدهد، نیاز به تغییرات اسکریپت وجود دارد که میتواند به خطا در پیکربندی ختم شود. هنگامی که سازمانها از چندین فروشنده سختافزار استفاده میکنند، این امر چالشبرانگیزتر میشود، زیرا نیاز به نگهداری بیشتر و انطباق اسکریپتهای متعدد دارد.
خطاهای پیکربندی، خطاهای سیستم عامل و اشکال در جداول مسیریابی، همگی نقش مهمی در خرابیهای مرتبط با شبکه ایفا میکنند، در حالی که نگرانیهای مرسوم مثل آب و هوا و قطع کابل نقش بسیار کمتری را ایفا میکنند. مشکلات ازدحام و ظرفیت نیز میتواند باعث خرابی شود، اما اینها اغلب نتیجه مشکلات برنامه نویسی یا پیکربندی است.
بررسی قطعی ناشی از نرمافزار و سیستمهای فناوری اطلاعات
باگهای مربوط به سیستمهای فناوری اطلاعات و نرمافزار یک مشکل دائمی برای عملیات مرکز داده هستند، اما با گذشت زمان، شرکتها فرآیندها، ابزارها و معماریهایی را برای به حداقل رساندن تأثیر آنها و با موفقیت قابل توجهی توسعه دادهاند. با این حال، این موضوع همچنان به عنوان یک چالش برای مراکز داده ادامه دارد، به طوری که بیش از 38 درصد شرکتکنندگان در نظرسنجی اختلالات قابل توجهی را در این حوزه تجربه کردهاند.
این قطعیها مشابه با مسائل شبکه، از پیچیدگی و مقیاس سیستمهای مدرن همراه با اتکای فزاینده به نرمافزار ناشی میشوند.
به طور جزئی مشکلات مربوط به همگام سازی پایگاه داده، لود بالانسینگ و مدیریت ترافیک میتواند به از کار افتادن جزئی یا کامل سرویس در چندین مرکز داده شود.
مشکلات نرمافزاری در درجه اول از مسائل مربوط به پیکربندی، وصلهها، ارتقاء و سایر تغییرات ناشی میشود که میتواند منجر به خطاهای پیشبینی نشده شود. مهار این خطاها پس از انتشار در شبکهها دشوارتر میشود. خطاهای سختافزاری و نرمافزاری نسبت به مسائل پیکربندی کمتر باعث خرابی میشود اما همچنان سهم قابل توجهی در قطعیها دارد.
در مقایسه با سال 2022 حملات سایبری شامل با افزارها و حملات دیداس شش درصد افزایش یافته است. هنگامی که چنین حوادثی رخ میدهد، عواقب آن میتواند شدید باشد و منجر به از دست دادن دادهها، ضرر مالی و آسیب به شهرت شود.
بررسی قطعی ناشی از عامل انسانی
مراکز داده برای کاهش زمان قطعی ناشی از خطای انسانی با چالشهای قابل توجهی روبهرو هستند. خرابیها میتواند ناشی از عوامل مختلفی نظیر عدم آموزش کافی، اشکال در رویههای موجود، خستگی کارکنان، دسترس پذیری منابع، طراحی مرکز داده و پیچیدگی عملیات باشد. همچنین در مورد چگونگی تعریف چنین حوادثی تردید وجود دارد. به عنوان مثال، آیا خرابی دستگاه ناشی از یک خطای نرمافزاری خطای انسانی است یا خیر؟
در نتیجه Uptime تمایل دارد خطای انسانی را به عنوان یک عامل کمککننده تحلیل کند. با تکیه بر دادههای 25 ساله این موسسه تخمین میزند که خطاهای انسانی چه به طور مستقیم یا غیرمستقیم به اکثریت حوادث خرابی دامن میزند.
در نظرسنجیهای اخیر در مورد تابآوری، Uptime تلاش کرده تا بفهمد که چگونه ترکیب برخی از این شکستها با خطای انسانی مرتبط است.خاموشیهای مرتبط با خطای انسانی عمدتاً به دلیل عدم رعایت رویهها (حتی اگر روی آنها توافق شده باشد) یا به دلیل ناکافی بودن رویهها ایجاد میشود.
در حالی که حتی قویترین روشهای آموزش و فرآیندهای مؤثر برای کارکنان نمیتوانند از قطعیهای احتمالی جلوگیری کنند. تقریباً چهار نفر از هر پنج اپراتور (78 درصد) معتقد هستند که مدیریت بهتر میتوانست از آخرین حادثه قطعی سازمانشان جلوگیری کند. این نسبت از سال 2022 همواره به همین نسبت اشاره میکند و نشان میدهد که فرصتهای زیادی برای کاهش قابل توجه زمان خرابی وجود دارد.
هزینههای ناشی از قطعی مراکز داده
علیرغم این که تعداد قطعیهای شدید مراکز داده کاهش یافته است؛ اما مواردی که اتفاق میافتند، بسیار پرهزینه هستند. بیش از نیمی از پاسخدهندگان به نظرسنجی سالانه Uptime، میگویند که آخرین قطعی مهم، جدی یا شدید در مرکز آنها بیش از 100 هزار دلار هزینه داشته است و 16 درصد گفتهاند که آخرین قطعی آنها بیش از یک میلیون دلار هزینه داشته است.
اگر چه این ارقام کمی پایینتر از سالهای قبل است اما همانطور که در ابتدای این گزارش در بخش فراوانی و شدت قطعی گفته شد، تغییرات در روش بررسی ممکن است بر مقایسه سال به سال تأثیر بگذارد.
هزینه بالای قطعی ناشی از عوامل متعددی از جمله تورم، جریمه نقض قرارداد خدمات (SLA)، هزینههای نیروی انسانی و هزینههای تعویض قطعات است. با این حال عامل اصلی برای کاهش قطعی، اتکای فزاینده عملیاتهای اقتصادی شرکت به خدمات دیجیتال مراکز داده است. چرا که قطع خدمات مهم فناوری اطلاعات اغلب منجر به اختلال فوری کسب و کار و از دست دادن درآمد میشود.
موسسه Uptime میانگین هزینه خاموشیها را محاسبه نمیکند؛ چرا که تأثیر این عامل در مشاغل مختلف به طور گستردهای متفاوت است. معمولاً در هر سال چند قطعی بسیار پر هزینه وجود دارد که میتواند میانگین کلی را تحت تأثیر قرار دهد که هزینه برخی از آنها به میلیونها یا حتی دهها میلیون دلار میرسد.
احتمالاً با افزایش وابستگی به خدمات دیجیتال هزینههای بالای ناشی از قطعی در طول زمان افزایش مییابد.