Web Analytics Made Easy - Statcounter

گزارش 2024 موسسه Uptime در مورد قطعی مراکز داده

قطعی مرکز داده - خاموشی دیتاسنتر - datacenter outage

جلوگیری از قطعی زیرساخت‌های دیجیتال برای مراکز داده و مالکان آن‌ها بسیار حائز اهمیت است. مطمئناً بررسی تاریخچه اختلالات می‌تواند به پیشگیری از وقوع آن‌ها در آینده کمک کند؛ به همین دلیل موسسه Uptime به صورت سالیانه وضعیت قطعی در مراکز داده، علل، هزینه‌ها و پیامدهای آن‌ها را بررسی می‌کند.

در این مقاله که توسط شرکت پردیس دیبا اندیشان گردآوری شده است، به بررسی مهم‌ترین بخش‌های گزارش سالیانه موسسه Uptime در مورد قطعی مراکز داده که در مارس 2024 منتشر شده، خواهیم پرداخت.

موسسه Uptime چگونه قطعی مراکز داده را ردیابی می‌کند؟

دنبال کردن وقوع قطعی مراکز ‌داده کار ساده‌ای نیست، چرا که مرجع دقیقی برای اندازه گیری آن وجود ندارد؛ از طرفی برخی از قطعی‌ها گزارش می‌شوند و قابل بررسی هستند و بسیاری دیگر محرمانه باقی می‌مانند. علاوه بر این برخی از اختلالات ممکن است از سوی کسب‌وکارها به عنوان قطعی طبقه بندی نشوند.

با این حال موسسه Uptime به طور کلی به سه روش، قطعی مراکز داده را ثبت می‌کند که در مجموع از دقت خوبی برخوردار است:

1- گزارش‌های عمومی: یکی از روش‌ها، پیگیری اخبار و رسانه‌های اجتماعی، اظهارات شرکت‌ها و ابزارهای ردیاب قطعی است که البته روش کاملاً دقیقی به شمار نمی‌آید.

2- نظرسنجی: موسسه Uptime همه ساله نظرسنجی‌های متعددی برگزار می‌کند که نظرسنجی در مورد قطعی یکی از آن‌هاست. با توجه به ناشناس بودن پاسخ‌ها، این روش دقت مناسبی دارد.

3- پایگاه داده موسسه Uptime: در این پایگاه داده، اطلاعات دقیق برخی از تأسیسات دنیا تحت یک توافق‌نامه عدم افشا جمع‌آوری می‌شود که از دقت بسیار بالایی برخوردار است.

فراوانی و شدت قطعی مراکز داده جهان

همزمان با گسترش مراکز داده جهان برای پاسخگویی به تقاضای کاربران، در نگاه اول انتظار می‌رود تعداد کلی قطعی‌های مراکز داده افزایش یابد. با این حال داده‌های موسسه Uptime، یک روند نزولی را در فراوانی و شدت قطعی‌ها نسبت به رشد کلی فناوری اطلاعات نشان می‌دهد. این روند چندین سال است که مشاهده می‌شود.

فراوانی و شدت قطعی مراکز داده در جهان طبق نظرسنجی موسسه آپتایم

کاهش کلی تعداد قطعی‌ها

بررسی داده‌های جمع‌آوری شده در طول چندین سال نشان می‌دهد که تعداد قطعی‌ها نسبت به رشد کلی مراکز داده در حال کاهش است. این موضوع احتمالاً به دلایل زیر باشد:

جلب رضایت کاربران: اگر چه تعداد اختلالات و قطعی‌ها کاهش یافته است، اما نشانه‌ای از رضایت در صنعت وجود ندارد و همچنان صنعت نگران نرخ قطعی است. چرا که قطع خدمات باعث تحمیل هزینه‌های مالی و آسیب به شهرت مراکزداده می‌شود. بنابراین دسترس‌پذیری به طور مداوم یکی از دغدغه‌های صنعت مراکز داده به شمار می‌آید و باعث افزایش سرمایه‌گذاری در این موضوع می‌شود.

ابر عمومی: حرکت به سمت ابر عمومی به این معنی نیست که قطعی کمتری وجود خواهد داشت. با این حال بروز قطعی در یک مرکز داده ابری به جای چندین مرکز داده در محل، گرچه باعث ثبت تعداد قطعی کمتری از لحاظ تعداد می‌شود ولی تعداد خدماتی که از دسترس خارج می‌شود، بیشتر خواهد بود.

تأثیر همه‌گیری کرونا

همه‌گیری کووید-19 تأثیر قابل توجهی بر صنعت مراکز داده داشت، به ویژه از نظر تقاضا، فشار بر زنجیره‌های تأمین و تحریف نرخ قطعی. این پس‌لرزه‌ها هنوز هم در سال 2024 احساس می‌شوند. به عنوان مثال اختلالات زنجیره تأمین هنوز هم وجود دارد که باعث شده بسیاری از سازمان‌ها، تعمیر و نگهداری و ارتقای زیرساخت را به تأخیر بیاندازند. این احتمال وجود دارد که این موضوع به خاطر کاهش قطعی ناشی از نگهداری، به طور موقت نرخ قطعی را کاهش داده باشد اما آثار بازگشتی آن با قطعی‌های طولانی‌تر در میان‌مدت مشاهده خواهد شد.

تأثیر ناپایداری شبکه

شواهدی وجود دارد که تغییر جهانی به سمت شبکه‌های برق پویا و تجدیدپذیر، قابلیت اطمینان شبکه را کاهش خواهد داد. بدین ترتیب مراکز داده احتمالاً با افزایش قطعی مواجه شوند. بسیاری از قطعی‌ها زمانی رخ می‌دهد که یک منبع تغذیه اضطراری یا ژنراتور قادر به پاسخگویی به اختلال طولانی‌مدت شبکه نباشد.

تأثیرات تغییرات آب و هوایی

حوادث آب و هوایی نظیر دمای بالا یا پایین، بادهای شدید و سیل و آتش‌سوزی جنگل‌ها که با تغییرات اقلیمی تشدید شده‌اند، در چند سال گذشته با قطعی مراکز داده مرتبط بوده‌اند. این روند احتمالاً در سال‌های آتی تشدید خواهد شد و اگر اقدامات پیشگیرانه انجام نشود، خطرات قطعی برق افزایش خواهد یافت.

تأثیر تکنولوژی‌های جدید

پیروی صنعت از فناوری‌ها و شیوه‌های نوین نیاز به مدیریت دقیق دارد. چرا که می‌توانند خطرات جدیدی اضافه کنند. به عنوان مثال استفاده از لود بالانسینگ و نرم‌افزارهای توزیع ترافیک می‌تواند خطرات خاموشی و تأثیرات مرتبط با آن را در طول زمان کاهش دهد، اما در آغاز، می‌تواند ریسک قطعی را افزایش دهد. یا استفاده از خنک کننده مایع در سرمایش مراکز داده ممکن است برخی از خطرات حرارتی را کاهش دهد، اما تأثیر آن بر خرابی قطعات، می‌تواند خطر خاموشی را افزایش دهد.

افزایش رده‌های افزونگی در مراکز داده جهان

نظرسنجی‌های سالانه موسسه Uptime نشان می‌دهد علیرغم افزایش عوامل خطر، میزان قطعی در هر مرکز داده در حال کاهش است. اما چه چیزی باعث این کاهش قطعی می‌شود؟ تحقیقات نشان می‌دهد که سازمان‌ها هر سال مبالغ بیشتری بر روی ارتقاء افزونگی زیرساخت فیزیکی مراکز داده سرمایه‌گذاری می‌کنند.

سطح افزونگی برق و کولینگ مراکز داده در جهان طبق نظرسنجی موسسه آپتایم

در حالی که صنعت به سمت مدل‌های تاب‌آوری توزیع شده و مبتنی بر نرم‌افزار حرکت می‌کند، حفظ و افزایش افزونگی زیرساخت سایت برای اکثر مراکز داده اولویت بسیار بالایی دارد.

علل وقوع قطعی در مراکز داده

تعیین علت اصلی قطع شدن مرکز داده برای جلوگیری از تکرار آن و شناسایی مواردی که نیاز به سرمایه‌گذاری بیشتری دارند، ضروری است. با این حال به دلیل ماهیت چند وجهی حوادث، ارزیابی این موارد با چالش‌هایی مواجه است.

گزارش‌ها نشان می‌دهد که اختلالات در تأمین برق، شایع‌ترین علت قطعی‌های تأثیرگذار است. با توجه به عدم تاب‌آوری سخت‌افزارهای فناوری اطلاعات نسبت به هر گونه اختلال برق، مانند نوسانات ولتاژ یا قطعی کامل برق حتی در کسری از ثانیه، این موضوع تعجب آور نیست.

خرابی یا عملکرد ضعیف تجهیزات خنک‌کننده هم دومین عامل اختلال است. با این حال به دلیل مکانیسم‌های انتقال حرارتی یا قابلیت‌های تغییر مسیر ترافیک شبکه، نسبت به اختلال برق برای مدت‌های طولانی‌تر تحمل می‌شود و اغلب در مقیاس دقیقه اندازه‌گیری می‌شود.

مشکلات ناشی از شرکت‌های شخص ثالث هم با افزایش پنج‌درصدی تقریباً علت قطعی یک مورد از 10 مورد خاموشی به حساب می‌آید. این موضوع نشان‌دهنده اتکای بیشتر سازمان‌ها به ابر عمومی و نرم‌افزار به عنوان یک سرویس (SaaS) است.

علت اصلی قطع مراکز داده و دیتاسنترها در جهان

موسسه Uptime همچنین در مورد شایع‌ترین علت قطع خدمات فناوری اطلاعات نظرسنجی می‌کند. طبق این نظرسنجی قطعی‌های مربوط به شبکه رایج‌ترین علت قطعی خدمات فناوری اطلاعات است.

شایع ترین علت قطع خدمات فناوری اطلاعات در سازمان‌ها

بررسی قابلیت اطمینان رایانش ابری و ارائه‌دهندگان شخص ثالث

خدمات ابری با هدف دستیابی به حداقل میزان قطعی مهندسی شده‌اند. ارائه‌دهندگان خدمات ابر و فناوری اطلاعات، لایه‌هایی از نرم‌افزار و میان‌افزار را مستقر می‌کنند. توزیع استراتژیک ظرفیت در سیستم‌ها، شبکه‌ها و مراکز داده می‌توانند بارهای کاری و ترافیک را از مناطقی که مشکل دارند، تغییر مسیر دهند. در نتیجه، این معماری‌ها سطوح بالایی از در دسترس بودن خدمات را به ویژه در مقیاس کلان ارائه می‌دهند.

با این حال هیچ معماری از شکست مصون نیست. چالش‌های ذاتی مرتبط با مدیریت نرم‌افزارها، داده‌ها و شبکه‌ها در مقیاس بزرگ به این معنی است که قطعی اجتناب‌ناپذیر است. با توجه به افزایش پذیرش ابر عمومی در صنایع مختلف، این شکست‌ها بر میلیون‌ها کاربر تأثیر می‌گذارد و توجه رسانه‌ها را به خود جلب می‌کند.

علی‌رغم این انتظار که سرویس‌های ابری، میزبانی شده و سایر خدمات مبتنی بر اینترنت باید نقش فزاینده‌ای در فناوری اطلاعات شرکت ایفا کنند، اکثر متخصصان برای ارائه برنامه‌ها و داده‌های حساس سازمان خود به شرکت‌های ثالث محتاط هستند و اعتماد کامل ندارند.

بدین ترتیب تنها یک نفر از هر هفت پاسخ‌دهنده معتفد است ابر عمومی برای تمام بارهای کاری حیاتی سازمان آن‌ها انعطاف پذیر است و حدود 15 درصد هم به ابر عمومی برای هیچ یک از فعالیت‌های حیاتی خود اعتقاد ندارند.

ابر عمومی به چه میزان برای پذیرش بارهای کاری حیاتی مناسب است

در سه سال گذشته بسیاری از سازمان‌ها از استراتژی First-Cloud عقب‌نشینی کرده‌اند و رویکردی محتاطانه‌تر و گزینشی را در پیش گرفته‌اند.

همچنین طبق داده‌های نظرسنجی Uptime کاهش سرعت مهاجرت شرکت‌ها به ابر پیش‌بینی شده است.

علل عدم پذیرش ابر برای کاربری‌های حیاتی

اکثر سازمان‌ها نگرانی امنیت داده‌ها را به عنوان مانع اصلی برای افزایش پذیرش ابر عمومی ذکر می‌کنند. شایان ذکر است تنها یک نفر از 5 نفر پاسخ‌دهندگان تاب‌آوری را به عنوان عامل بازدارنده در پذیرش ابر ذکر می‌کنند.

این احتمال وجود دارد که نگرانی‌های امنیتی سازمان‌ها به دلیل حملات سایبری گسترده به برخی از ارائه‌دهندگان ابری باشد که در آن سرویس‌های زیادی آفلاین شدند و اطلاعات محرمانه به خطر افتاد. در واقع از هر پنج اپراتور یک اپراتور به دلیل ارائه‌دهنده شخص ثالت دچار اختلال شده‌اند.

میزان قطعی خدمات فناوری اطلاعات به خاطر ارائه دهنده شخص ثالث

بررسی قطعی ناشی از اختلال برق در مراکز داده

اختلالات مرتبط با برق اغلب منجر به شدیدترین قطعی در مراکز داده می‌شود. در حالی که تشخیص و بازیابی برق اغلب سریع است، راه‌اندازی مجدد تجهیزات فناوری اطلاعات و همگام‌سازی پایگاه‌های داده می‌تواند چندین ساعت طول بکشد؛ آن هم در صورتی که سیستم‌ها پس از قطع برق آسیب ندیده باشند.

مسائل مربوط به قطع برق، شایع‌ترین علت قطعی‌های تأثیرگذار برای مراکز داده است، این موضوع همچنین سهم روبه‌رشدی از قطعی‌های کلی را به طور سالانه نشان می‌دهد.

چالش‌های شبکه‌های برق ممکن است این روند را در سال‌های آینده تشدید کند. قابلیت اطمینان شبکه برق، به دلیل ترکیبی از عوامل از جمله قدیمی بودن زیرساخت‌ها و سیستم‌های انتقال، افزایش تقاضا، از کار افتادن نیروگاه‌های قدیمی‌تر، حوادث آب و هوایی و اتکای فزاینده به منابع تجدیدپذیر در معرض تهدید است.

30 درصد از پاسخ‌دهندگان به نظرسنجی از قطعی برق در سایت خود خبر دادند. مشکلات UPS به عنوان شایع‌ترین علت این قطعی‌ها ذکر می‌شود و از زمانی که این نظرسنجی برگزار می‌شود همواره این مشکل وجود داشته است.

شایع ترین علت های قطع برق در دیتا سنتر های جهان

دلایل متعددی برای قطعی UPS وجود دارد. مهندسان موسسه Uptime موارد زیر را به عنوان رایج‌ترین مشکلات سیستم‌های UPS گزارش می‌کنند:

  • فن‌ها اغلب از کار می‌افتند زیرا معمولاً ارزان و دائم کار هستند. (خرابی یک فن، دستگاه را از کار نمی‌اندازد اما خرابی چند فن ممکن است آن را از کار بیاندازد)
  • خازن‌های اسنابر ممکن است در اثر سایش و پارگی از کار بیافتند. نگهداری منظم تعداد خرابی‌ها را کاهش خواهد داد.
  • باتری‌ها به دلیل قدیمی بودن خراب می‌شوند. آن‌ها نیاز به نظارت دقیق و برنامه‌های تعویض دارند. بسیاری از باتری‌ها توسط تکنسین‌های مخرب به اندازه کافی نظارت نمی‌شوند به همین دلیل از کار می‌افتند.
  • خرابی استک اینورتر کم‌تر شایع است. این مورد بیشتر در حالت اورلود رخ می‌دهد.

مشکلات UPS با افزایش سن باتری‌ها بیشتر می‌شود. بنابراین مشکلات زنجیره تامین می‌تواند به خرابی‌های بیشتری منجر شود.

ژنراتورها قابل اعتماد هستند. اما نیاز به تعمیر و نگهداری برنامه‌ریزی شده و منظم، بررسی سوخت و تست دارند.

سوئیچ‌های انتقال خودکار (ATS) عموماً قابل اطمینان هستند، اما ممکن است با از دست دادن توان جریان مستقیم به این کنترل‌ها خرابی رخ دهد. علاوه بر آن به دلیل مشکلات مکانیکی مانند فرسوده شدن یاتاقان‌ها یا گیر کردن سوئیچ ممکن است خرابی رخ دهد.

بررسی قطعی ناشی از مشکلات شبکه

مشکلات شبکه باعث شده است که بخش زیادی از قطعی خدمات فناوری اطلاعات در سال‌های اخیر رخ دهد. دو عامل رایج قطعی شبکه یا اتصال، اشکال در پیکربندی و اختلال در ارائه‌دهنده شخص ثالث شبکه است.

گفتنی است با تکامل الگوهای تقاضا، شبکه‌های مراکز داده نیز دستخوش تغییرات می‌شوند. استفاده روزافزون از مجازی سازی برای پاسخگویی به این تقاضا، اتکا به اجزای نرم‌افزاری مانند سیستم‌های مدیریت، نظارت و اتوماسیون را افزایش می‌دهد.

این ابزارها می‌توانند به جلوگیری از حوادث مرتبط از خطای انسانی کمک کنند. با این حال، هنگامی که تغییرات شبکه رخ می‌دهد، نیاز به تغییرات اسکریپت وجود دارد که می‌تواند به خطا در پیکربندی ختم شود. هنگامی که سازمان‌ها از چندین فروشنده سخت‌افزار استفاده می‌کنند، این امر چالش‌برانگیزتر می‌شود، زیرا نیاز به نگهداری بیشتر و انطباق اسکریپت‌های متعدد دارد.

شایع ترین علت های قطع شبکه و اتصال اینترنت در دیتا سنتر های جهان

خطاهای پیکربندی، خطاهای سیستم عامل و اشکال در جداول مسیریابی، همگی نقش مهمی در خرابی‌های مرتبط با شبکه ایفا می‌کنند، در حالی که نگرانی‌های مرسوم مثل آب و هوا و قطع کابل نقش بسیار کم‌تری را ایفا می‌کنند. مشکلات ازدحام و ظرفیت نیز می‌تواند باعث خرابی شود، اما این‌ها اغلب نتیجه مشکلات برنامه نویسی یا پیکربندی است.

بررسی قطعی ناشی از نرم‌افزار و سیستم‌های فناوری اطلاعات

باگ‌های مربوط به سیستم‌های فناوری اطلاعات و نرم‌افزار یک مشکل دائمی برای عملیات مرکز داده هستند، اما با گذشت زمان، شرکت‌ها فرآیندها، ابزارها و معماری‌هایی را برای به حداقل رساندن تأثیر آن‌ها و با موفقیت قابل توجهی توسعه داده‌اند. با این حال، این موضوع همچنان به عنوان یک چالش برای مراکز داده ادامه دارد، به طوری که بیش از 38 درصد شرکت‌کنندگان در نظرسنجی اختلالات قابل توجهی را در این حوزه تجربه کرده‌اند.

این قطعی‌ها مشابه با مسائل شبکه، از پیچیدگی و مقیاس سیستم‌های مدرن همراه با اتکای فزاینده به نرم‌افزار ناشی می‌شوند.

به طور جزئی مشکلات مربوط به همگام سازی پایگاه داده، لود بالانسینگ و مدیریت ترافیک می‌تواند به از کار افتادن جزئی یا کامل سرویس در چندین مرکز داده شود.

شایع ترین علت های اختلال نرم افزار / سخت افزار در دیتا سنتر های جهان

مشکلات نرم‌افزاری در درجه اول از مسائل مربوط به پیکربندی، وصله‌ها، ارتقاء و سایر تغییرات ناشی می‌شود که می‌تواند منجر به خطاهای پیش‌بینی نشده شود. مهار این خطاها پس از انتشار در شبکه‌ها دشوارتر می‌شود. خطاهای سخت‌افزاری و نرم‌افزاری نسبت به مسائل پیکربندی کمتر باعث خرابی می‌شود اما همچنان سهم قابل توجهی در قطعی‌ها دارد.

در مقایسه با سال 2022 حملات سایبری شامل با افزارها و حملات دیداس شش درصد افزایش یافته است. هنگامی که چنین حوادثی رخ می‌دهد، عواقب آن می‌تواند شدید باشد و منجر به از دست دادن داده‌ها، ضرر مالی و آسیب به شهرت شود.

بررسی قطعی ناشی از عامل انسانی

مراکز داده برای کاهش زمان قطعی ناشی از خطای انسانی با چالش‌های قابل توجهی روبه‌رو هستند. خرابی‌ها می‌تواند ناشی از عوامل مختلفی نظیر عدم آموزش کافی، اشکال در رویه‌های موجود، خستگی کارکنان، دسترس پذیری منابع، طراحی مرکز داده و پیچیدگی عملیات باشد. همچنین در مورد چگونگی تعریف چنین حوادثی تردید وجود دارد. به عنوان مثال، آیا خرابی دستگاه ناشی از یک خطای نرم‌افزاری خطای انسانی است یا خیر؟

در نتیجه Uptime تمایل دارد خطای انسانی را به عنوان یک عامل کمک‌کننده تحلیل کند. با تکیه بر داده‌های 25 ساله این موسسه تخمین می‌زند که خطاهای انسانی چه به طور مستقیم یا غیرمستقیم به اکثریت حوادث خرابی دامن می‌زند.

در نظرسنجی‌های اخیر در مورد تاب‌آوری، Uptime تلاش کرده تا بفهمد که چگونه ترکیب برخی از این شکست‌ها با خطای انسانی مرتبط است.خاموشی‌های مرتبط با خطای انسانی عمدتاً به دلیل عدم رعایت رویه‌ها (حتی اگر روی آن‌ها توافق شده باشد) یا به دلیل ناکافی بودن رویه‌ها ایجاد می‌شود.

شایع ترین علت های خطای انسانی در مراکز داده جهان

 در حالی که حتی قوی‌ترین روش‌های آموزش و فرآیندهای مؤثر برای کارکنان نمی‌توانند از قطعی‌های احتمالی جلوگیری کنند. تقریباً چهار نفر از هر پنج اپراتور (78 درصد) معتقد هستند که مدیریت بهتر می‌توانست از آخرین حادثه قطعی سازمانشان جلوگیری کند. این نسبت از سال 2022 همواره به همین نسبت اشاره می‌کند و نشان می‌دهد که فرصت‌های زیادی برای کاهش قابل توجه زمان خرابی وجود دارد.

آیا با مدیریت مناسب مرکز داده می‌توان از بروز حادثه قطعی جلوگیری کرد

هزینه‌های ناشی از قطعی مراکز داده

علیرغم این که تعداد قطعی‌های شدید مراکز داده کاهش یافته است؛ اما مواردی که اتفاق می‌افتند، بسیار پرهزینه هستند. بیش از نیمی از پاسخ‌دهندگان به نظرسنجی سالانه Uptime، می‌گویند که آخرین قطعی مهم، جدی یا شدید در مرکز آن‌ها بیش از 100 هزار دلار هزینه داشته است و 16 درصد گفته‌اند که آخرین قطعی آن‌ها بیش از یک میلیون دلار هزینه داشته است.

اگر چه این ارقام کمی پایین‌تر از سال‌های قبل است اما همانطور که در ابتدای این گزارش در بخش فراوانی و شدت قطعی گفته شد، تغییرات در روش بررسی ممکن است بر مقایسه سال به سال تأثیر بگذارد.

هزینه بالای قطعی ناشی از عوامل متعددی از جمله تورم، جریمه نقض قرارداد خدمات (SLA)، هزینه‌های نیروی انسانی و هزینه‌های تعویض قطعات است. با این حال عامل اصلی برای کاهش قطعی، اتکای فزاینده عملیات‌های اقتصادی شرکت‌ به خدمات دیجیتال مراکز داده است. چرا که قطع خدمات مهم فناوری اطلاعات اغلب منجر به اختلال فوری کسب و کار و از دست دادن درآمد می‌شود.

موسسه Uptime میانگین هزینه خاموشی‌ها را محاسبه نمی‌کند؛ چرا که تأثیر این عامل در مشاغل مختلف به طور گسترده‌ای متفاوت است. معمولاً در هر سال چند قطعی بسیار پر هزینه وجود دارد که می‌تواند میانگین کلی را تحت تأثیر قرار دهد که هزینه برخی از آن‌ها به میلیون‌ها یا حتی ده‌ها میلیون دلار می‌رسد.

احتمالاً با افزایش وابستگی به خدمات دیجیتال هزینه‌های بالای ناشی از قطعی در طول زمان افزایش می‌یابد.

هزینه ی قطع شدن و خاموشی در دیتاسنتر چقدر است