Web Analytics Made Easy - Statcounter

سریع‌ترین ابر کامپیوتر جهان نمی‌تواند حتی یک روز بدون خطا کار کند

پردازنده‌های گرافیکی AMD Instinct و سوئیچ‌های HPE Slingshot مقصر نقص‌های متعدد ابرکامپیوتر «فرانتیر» هستند.
ابرکامپیوتر فرانتیر - Frontier Supercomputer - سریعترین ابر رایانه جهان

ساخت یک ابرکامپیوتر همیشه چالش برانگیز است، اما ایجاد اولین سیستم در کلاس اگزا اسکیل (exascale)، مواجهه با چیزی کاملاً غیرمنتظره است و نیاز به کار زیادی با سخت افزار و نرم افزار دارد. متأسفانه، این مشکل در مورد ابرکامپیوتر فرانتیر (Frontier) آزمایشگاه ملی Oak Ridge صادق است، که به سختی می‌تواند یک روز بدون نقص سخت‌افزاری متعدد دوام بیاورد.

فرانتیر، اولین ابرکامپیوتر صنعت است که با استفاده از پردازنده‌های 64 هسته‌ای EPYC Trento AMD، پردازنده‌های گرافیکی Instinct MI250X و سوئیچ‌های Slingshot HPE با توان 21 مگاوات، حداکثر عملکرد 1/685 اگزافلاپس را ارائه می‌دهد. HPE این ابرکامپیوتر را ساخت و از معماری Cray EX در ساخت آن استفاده کرد که عمدتاً برای ابرکامپیوترهای فوق سریع طراحی شده است.

در حالی که روی کاغذ، ابرکامپیوتر فرانتیر فوق‌العاده خوب به نظر می‌رسد و قطعات آن به طور کامل تحویل داده شده است، به نظر می‌رسد که مشکلات سخت‌افزاری باعث می‌شود این دستگاه نتواند آنلاین شود و در دسترس محققانی باشد که به عملکردی حدود 1 اگزافلاپس نیاز دارند.

جاستین ویت، مدیر رایانش آزمایشگاه اوک ریج (OLCF)، در مصاحبه‌ای با InsideHPC گفت:« ما روی مشکلات سخت‌افزاری کار می‌کنیم و مطمئناً راهکار آن را می‌فهمیم. طبیعتاً شما در این مقیاس خطا خواهید داشت. میانگین زمان بین خطاها در سیستمی با این مقایس، ساعت است، روز نیست.»

مدتی است که شایعات زیادی در مورد خطاهای سخت‌افزاری فرانتیر در حال پخش است. بر اساس خبر دیگری از InsideHPC برخی گفتند که سیستم با سوئیچ‌های Slingshot دچار مشکل شده است. برخی دیگر نیز عنوان کردند که پردازنده‌های گرافیکی محاسباتی AMD Instinct MI250X آنطور که انتظار می‌رفت، قابل اعتماد نیستند. به یاد داشته باشید که نسخه X این محصول با تعداد پردازنده‌های جریان قوی و کلاک بالا، فقط برای مشتریان منتخب در دسترس است.

فرانتیر - سریعترین ابر رایانه دنیا

ابرکامپیوتر فرانتیر مشکلات متنوعی دارد

آقای ویت تایید نکرد که سیستم با Instinct یا Slingshot مشکل خاصی دارد، اما تاکید کرد که دستگاه از مشکلات سخت افزاری متعددی رنج می‌برد.

رئیس OLCF گفت: «چالش‌های زیادی حول GPU متمرکز شده‌اند، اما این تنها مشکلی نیست که ما شاهد آن هستیم. این یک مورد از میان ایرادات رایج خطای قطعات است. من فکر نمی‌کنم که در این مرحله ما نگرانی زیادی در مورد محصولات AMD داشته باشیم.»

ابررایانه Frontier آزمایشگاه ملی اوک ریج تنها سیستمی نیست که از معماری Cray EX HPE با سوئیچ‌های Slingshot، CPUهای EPYC AMD و GPUهای AMD Instinct استفاده می‌کند. به عنوان مثال، ابرکامپیوتر Lumi در فنلاند (Cray EX، EPYC Milan، پردازنده‌های گرافیکی محاسباتی Instinct MI250X) حداکثر عملکرد ۵۵۰ پتافلاپس را ارائه می‌کند و رسماً به عنوان سومین ابرکامپیوتر قدرتمند جهان رتبه‌بندی می‌شود. شاید مشکل سریع‌ترین ابرکامپیوتر جهان در مقیاس دستگاه باشد که در مجموع از 60 میلیون قطعه سخت‌افزاری استفاده می‌کند!

تنها گذشت زمان نشان خواهد داد که آیا ابرکامپیوتر فرانتیر که در ابتدا وعده داده شده بود در سال 2022 آنلاین شود، می‌تواند از سال 2023 در دسترس محققان قرار بگیرد یا نه؟