بارانی از چتبات میبارد! در این هفتهها پس از اینکه ChatGPT چتبات شرکت OpenAI انقلابی به پا کرد، گوگل از BARD رونمایی کرد و چندین شرکت دیگر نیز از آن پیروی کردند. اکنون به نظر میرسد که غول رسانههای اجتماعی متا نیز در حال آماده شدن برای معرفی محصولی حتی قویتر نسبت به همتایان خود است. متا ابزار تحقیقاتی جدیدی را معرفی کرده است که در اصل به ساخت چتباتهای مبتنی بر هوش مصنوعی کمک شایانی میکند.
این شرکت به صورت عمومی مدل زبان بزرگ خود با نام LLaMA را منتشر کرده است. طبق انتشار رسمی، LLaMA یک مدل زبان پایه پیشرفته است که برای کمک به محققان هوش مصنوعی توسعه یافته است.
این شرکت اخیراً تا حد زیادی از صحبتهای پیرامون چتباتهای هوش مصنوعی غایب بود. در حالی که متا یکی از اولین شرکتهایی بود که چتباتهای خود را منتشر کرد و به دلیل نتایج نادرست و پاسخهای کوتاه، آنها را کنار گذاشت. با LLaMa، متا به نظر میرسد خود را به رقابت بازگردانده است. این سومین مدل زبان بزرگ متا پس از Glactica و Blender Bot 3 است که به خاطر ارائه نتایج نادرست متوقف شدند.
مدل زبان بزرگ (LLM) چیست؟
مدلهای زبان بزرگ یا LLM سیستمهای هوش مصنوعی هستند که حجم عظیمی از متون دیجیتالی را از منابع اینترنتی مانند مقالهها، گزارشهای خبری و پستهای رسانههای اجتماعی مصرف میکنند. از این متون دیجیتالی برای آموزش نرم افزاری استفاده میشود که بر اساس درخواستها و پرسوجوها، محتوا را پیشبینی و تولید میکند. این مدلها میتوانند در کارهایی مانند نوشتن مقاله، نوشتن پستهای رسانههای اجتماعی، پیشنهاد کد برنامهنویسی و ایجاد مکالمات چت بات کمک کنند.
LLaMA چیست؟
LLaMA اساساً یک چتبات نیست. این یک ابزار تحقیقاتی است که به گفته متا، احتمالاً مشکلات مربوط به مدلهای زبان هوش مصنوعی را حل خواهد کرد. متا در وبلاگ رسمی خود گفت: «مدلهای کارآمدتر مانند LLaMA جامعه تحقیقات هوش مصنوعی را که به زیرساخت قدرتمند دسترسی ندارند، قادر میسازد تا مدلها را آموزش دهندو دسترسی بیشتر به این حوزه مهم را مردمیتر کنند.»
متا گفته است که مدلهای خود را با تریلیونها توکن آموزش میدهد و ادعا میکند که آموزش مدلهای پیشرفته آن با استفاده از مجموعه دادههای عمومی امکان پذیر است و بر مجموعه دادههای اختصاصی و غیرقابل دسترسی این شرکت تکیه نمیکند.
چرا LLaMA متفاوت است؟
به گفته متا، آموزش مدلهای بنیادی مانند LLaMA ایدهآل است زیرا به قدرت محاسباتی و منابع بسیار پایینی برای آزمایش، اعتبارسنجی و کشف موارد استفاده جدید نیاز دارند. مدلهای زبان بنیادی برای آموزش حجم بزرگی از دادهها که بدون برچسب هستند، شناخته شدهاند و این باعث میشود آنها را برای سفارشیسازی بر اساس وظایف مختلف ایدهآل کنند. متا گفته است که LLaMA را در مقیاسهای 7B، 13B، 33B و 65B ارائه خواهد کرد.
متا در مقاله تحقیقاتی خود اشاره کرد که LLaMA-13B از GPT-3 OpenAI (175B) در بیشتر بنچمارکها بهتر عمل کرده است و LLaMA-65B با بهترین مدلها، Chinchilla70B DeepMind و PaLM-540B Google رقابت میکند. LLaMA-13B میتواند برای کسبوکارهای کوچکی که مشتاق اجرای آزمایشها بر روی این سیستمها هستند، موهبتی باشد، با این حال، ممکن است هنوز از پژوهشگرانی که به تنهایی کار میکنند دور باشد.
LLaMA در حال حاضر در هیچ یک از محصولات متا استفاده نمیشود، با این حال، این شرکت برنامه هایی برای در دسترس قرار دادن آن در اختیار محققان دارد. این شرکت قبلا LLM OPT-175B خود را راه اندازی کرده بود اما LLaMA سیستم پیشرفتهتر آن است. متا همچنین کد سورس مدل LLaMA را در دسترس افراد دیگر قرار داده است تا نحوه عملکرد سیستم را ببینند. این به آنها امکان سفارشیسازی و همکاری در پروژههای مرتبط را میدهد.
مدل زبان بزرگ (LLM) چیست؟
مدلهای زبان بزرگ یا LLM سیستمهای هوش مصنوعی هستند که حجم عظیمی از متون دیجیتالی را از منابع اینترنتی مانند مقالهها، گزارشهای خبری و پستهای رسانههای اجتماعی مصرف میکنند. از این متون دیجیتالی برای آموزش نرم افزاری استفاده میشود که بر اساس درخواستها و پرسوجوها، محتوا را پیشبینی و تولید میکند. این مدلها میتوانند در کارهایی مانند نوشتن مقاله، نوشتن پستهای رسانههای اجتماعی، پیشنهاد کد برنامهنویسی و ایجاد مکالمات چت بات کمک کنند.