خاطره ای از یک مهندس سابق توییتر: یافتن 700 پردازنده گرافیکی بی استفاده انویدیا پس از تصاحب شرکت
به گزارش مجله پیامکی، یک مهندس که در دوران انتقال آگراوال-ماسک در توییتر کار می کرد، اخیراً خاطراتی از پیدا کردن یک کلاستر از 700 پردازنده گرافیکی انویدیا V100 را بازگو نموده است. تیم زمان Tim Zaman، که اکنون به عنوان مهندس نرم افزار در گوگل دیپ مایند (Google DeepMind) مشغول به کار است، این حجم بزرگ از قدرت پردازشی را در مرکز داده توییتر که فعال اما بلااستفاده بود، کشف کرد.
تاریخچه این کشف
چند هفته پس از تصاحب توییتر در سال 2022، تیم زمان 700 پردازنده گرافیکی V100 را در مرکز داده یافت که روشن و بدون استفاده مانده بودند. این پردازنده ها که به باور زمان بقایای فراموش شده ای از یک کوشش پیگیر برای ساخت یک کلاستر در توییتر 1.0 بودند، سال ها در این شرایط مانده بودند. زمان این کشف را پس از مطالعه در خصوص سوپرکلاستر ممفیس xAI که با 100,000 شتاب دهنده H100 انویدیا خنک شده با مایع در حال آموزش مدل Grok 3 بود، منتشر کرد.
اتلاف منابع و تغییرات زمان
توییت تیم زمان نشان داد که توییتر 700 عدد از قدرتمندترین پردازنده های گرافیکی دنیا را داشت که بدون هدف فعالیت می کردند. او گفت: چقدر زمان تغییر نموده است! این پردازنده های گرافیکی که در سال 2017 و در دوره نخستین کمبود بزرگ پردازنده های گرافیکی تهیه شده بودند، تا اواسط 2022 بدون هدف فعالیت می کردند. این میزان بزرگ از زمان و منابع محاسباتی تلف شده است.
انتخاب PCIe به جای NVLink
یکی دیگر از چیزهای جالب، کشف این بود که این 700 پردازنده گرافیکی انویدیا V100 از نوع PCIe بودند نه از نوع NVLink با پهنای باند بالاتر. دلایل خرید این پردازنده ها به جای نسخه های NVLink برای این نصب بزرگ به وسیله توییتر 2017 همچنان نامعین است و شاید هیچ گاه معین نشود.
چالش های گیگافکتوری محاسباتی ماسک
توییت زمان بعلاوه شامل تأملاتی در خصوص گیگافکتوری محاسباتی نو ماسک بود. او گفت که فعال سازی 100 هزار پردازنده گرافیکی (fabric) باید یک چالش حماسی باشد. او بعلاوه به مدیریت خرابی های احتمالی در این مقیاس بزرگ اشاره نمود و پیشنهاد کرد که منابع را به حوزه های جداگانه تقسیم نمایند تا خرابی ها کل سیستم را مختل ننمایند.
آینده کلاسترهای آموزش هوش مصنوعی
زمان بعلاوه به حداکثر تعداد پردازنده های گرافیکی که می توانند ردر یک مجموعه فعال کرد، علاقه مند بود. استکوشش شرکت های بزرگ فناوری برای ساخت کلاسترهای بزرگ تر برای آموزش هوش مصنوعی، محدودیت های پیش بینی پذیر و غیرقابل پیش بینی در این زمینه شناخته خواهند شد.
منبع: یک پزشک