ساخت یک ابرکامپیوتر همیشه چالش برانگیز است، اما ایجاد اولین سیستم در کلاس اگزا اسکیل (exascale)، مواجهه با چیزی کاملاً غیرمنتظره است و نیاز به کار زیادی با سخت افزار و نرم افزار دارد. متأسفانه، این مشکل در مورد ابرکامپیوتر فرانتیر (Frontier) آزمایشگاه ملی Oak Ridge صادق است، که به سختی میتواند یک روز بدون نقص سختافزاری متعدد دوام بیاورد.
فرانتیر، اولین ابرکامپیوتر صنعت است که با استفاده از پردازندههای 64 هستهای EPYC Trento AMD، پردازندههای گرافیکی Instinct MI250X و سوئیچهای Slingshot HPE با توان 21 مگاوات، حداکثر عملکرد 1/685 اگزافلاپس را ارائه میدهد. HPE این ابرکامپیوتر را ساخت و از معماری Cray EX در ساخت آن استفاده کرد که عمدتاً برای ابرکامپیوترهای فوق سریع طراحی شده است.
در حالی که روی کاغذ، ابرکامپیوتر فرانتیر فوقالعاده خوب به نظر میرسد و قطعات آن به طور کامل تحویل داده شده است، به نظر میرسد که مشکلات سختافزاری باعث میشود این دستگاه نتواند آنلاین شود و در دسترس محققانی باشد که به عملکردی حدود 1 اگزافلاپس نیاز دارند.
جاستین ویت، مدیر رایانش آزمایشگاه اوک ریج (OLCF)، در مصاحبهای با InsideHPC گفت:« ما روی مشکلات سختافزاری کار میکنیم و مطمئناً راهکار آن را میفهمیم. طبیعتاً شما در این مقیاس خطا خواهید داشت. میانگین زمان بین خطاها در سیستمی با این مقایس، ساعت است، روز نیست.»
مدتی است که شایعات زیادی در مورد خطاهای سختافزاری فرانتیر در حال پخش است. بر اساس خبر دیگری از InsideHPC برخی گفتند که سیستم با سوئیچهای Slingshot دچار مشکل شده است. برخی دیگر نیز عنوان کردند که پردازندههای گرافیکی محاسباتی AMD Instinct MI250X آنطور که انتظار میرفت، قابل اعتماد نیستند. به یاد داشته باشید که نسخه X این محصول با تعداد پردازندههای جریان قوی و کلاک بالا، فقط برای مشتریان منتخب در دسترس است.
ابرکامپیوتر فرانتیر مشکلات متنوعی دارد
آقای ویت تایید نکرد که سیستم با Instinct یا Slingshot مشکل خاصی دارد، اما تاکید کرد که دستگاه از مشکلات سخت افزاری متعددی رنج میبرد.
رئیس OLCF گفت: «چالشهای زیادی حول GPU متمرکز شدهاند، اما این تنها مشکلی نیست که ما شاهد آن هستیم. این یک مورد از میان ایرادات رایج خطای قطعات است. من فکر نمیکنم که در این مرحله ما نگرانی زیادی در مورد محصولات AMD داشته باشیم.»
ابررایانه Frontier آزمایشگاه ملی اوک ریج تنها سیستمی نیست که از معماری Cray EX HPE با سوئیچهای Slingshot، CPUهای EPYC AMD و GPUهای AMD Instinct استفاده میکند. به عنوان مثال، ابرکامپیوتر Lumi در فنلاند (Cray EX، EPYC Milan، پردازندههای گرافیکی محاسباتی Instinct MI250X) حداکثر عملکرد ۵۵۰ پتافلاپس را ارائه میکند و رسماً به عنوان سومین ابرکامپیوتر قدرتمند جهان رتبهبندی میشود. شاید مشکل سریعترین ابرکامپیوتر جهان در مقیاس دستگاه باشد که در مجموع از 60 میلیون قطعه سختافزاری استفاده میکند!
تنها گذشت زمان نشان خواهد داد که آیا ابرکامپیوتر فرانتیر که در ابتدا وعده داده شده بود در سال 2022 آنلاین شود، میتواند از سال 2023 در دسترس محققان قرار بگیرد یا نه؟