گوگل طی هفتههای اخیر از آخرین برنامههای خود برای کنار زدن ChatGPT از جایگاه پادشاه چتباتهای هوش مصنوعی مولد، پرده برداشت. غول جستجو قصد دارد تا از قدرت دادههای موتور جستجوی خود و تسلط بر اینترنت برای کنار زدن محصول OpenAI استفاده کند.
گوگل بارد (که اکنون به جمینای (Gemini) تغییر نام داده است) در اوایل سال 2023 و به دنبال اقدام پیشگامانه مایکروسافت و OpenAI برای معرفی چتجیپیتی منتشر شد.
بارد به لطف ادغام آن با فناوری جستجوی گوگل از همان روز اول قادر به دسترسی به اینترنت بود. در حالی که نسخه اولیه ChatGPT محدود به دانشی بود که در طول آموزش به آن داده شده بود.
اما کمی بعد OpenAI اتصال و توانایی دسترسی به اطلاعات خارجی را از طریق ارتباط با بینگ مایکروسافت به ChatGPT اضافه کرد. همیشه اتفاق نظر بر این است که ChatGPT برای طیف وسیعتری از وظایف پردازش زبان قدرتمندتر است.
اکنون گوگل در حال ادامه دادن به این رقابت است و نام بارد را به مدل زبان این چتبات، یعنی Gemini تغییر نام داده است و اجازه دسترسی به سرویس پیشرفته خود را از طریق اشتراکی که قیمتی رقابتی با ChatGPT دارد را میدهد.
اکنون سوال این است که آیا Gemini آماده است تا پا به رینگ بگذارد و با قهرمان بیچونوچرای هوش مصنوعی وارد رقابت شود؟ در اینجا، یک نمای کلی از هر دو پلتفرم ارائه خواهیم داد و تفاوتهای آنها را مطرح میکنیم تا ببینیم کدام یک قدرتمندتر است؟
مقایسه مدلهای زبان بزرگ Gemini و چتجیپیتی
در ابتدا شایان ذکر است که Gemini و ChatGPT هر دو بر اساس مدلهای فوقالعاده وسیع و قدرتمند زبان بزرگ (LLM) هستند که بسیار پیشرفتهتر از گذشته هستند.
به یاد داشته باشید، ChatGPT فقط رابطی است که از طریق آن کاربران با مدل زبان ارتباط برقرار میکنند و مدلهای زبان آن GPT4 (اشتراک پولی ChatGPT Pro) یا GPT3.5 (کاربران رایگان) نام دارد.
در مورد گوگل، این رابط Gemini نامیده میشود و برای برقراری ارتباط با مدل زبان استفاده میشود که آن هم Gemini نیز نامیده میشود (یا Gemini Ultra برای سرویسهای پولی).
چیزی که باید در نظر گرفته شود این است که اگرچه ما هر دوی آنها را چتبات می نامیم، تجربه کاربری مورد نظر کمی متفاوت است. ChatGPT برای انجام مکالمات و کمک به حل مشکلات به صورت مکالمه طراحی شده است – دقیقاً مانند چت کردن با یک متخصص در مورد یک موضوع.
اما به نظر میرسد Gemini برای پردازش اطلاعات و خودکارسازی وظایف به گونه ای طراحی شده است که در زمان و تلاش کاربر صرفهجویی میکند.
از دیدگاه فنی، قدرت مدلهای LLM اغلب با تعداد پارامترها (مقادیر قابل آموزش) در شبکه عصبی اندازهگیری میشود. گزارش شده است که شبکههای GPT-4 حاوی حدود یک تریلیون پارامتر هستند، اما هیچ اطلاعات اثباتشدهای در مورد تعداد پارامترهای استفاده شده توسط Gemini اعلام نشده است.
با این حال، این ممکن است مهم نباشد، زیرا از خروجی این دو چتبات واضح است که هر دو بسیار بسیار قدرتمند هستند.
سوبارائو کامبامپاتی، استاد هوش مصنوعی در دانشگاه ایالتی آریزونا، میگوید: «ما اساساً به نقطهای رسیدهایم که اکثر LLM ها از نظر معیارهای کیفی قابل تشخیص نیستند.
به عبارت دیگر، اندازه فنی و قدرت مدل مهم نیست؛ بلکه نحوه تنظیم، آموزش و ارائه آن برای کمک به کاربران در حل مشکلات واقعاً مهم است.»
کدام مدل زبان قدرتمندتر است؟
پس از مدتی استفاده از هر دو برای انجام مکالمات مختلف در مورد موضوعات مختلف، به نظر واضح است که ChatGPT همچنان به لطف GPT-4 رابط قدرتمندتر است. با این حال، Gemini در حال کم کردن فاصله است!
مقایسه از لحاظ بازیابی اطلاعات
یکی از مزیتهای Gemini این است که بهطور پیشفرض، تمام اطلاعاتی را که گوگل در اختیار دارد؛ از جمله اینترنت، نمودار دانش گسترده گوگل و دادههای آموزشی آن، در نظر میگیرد.
از سوی دیگر، ChatGPT اغلب هنوز هم سعی میکند به یک سوال تنها با تکیه بر دادههای آموزشی خود پاسخ دهد. این میتواند منجر به ارائه اطلاعات قدیمی شود. با این حال، میتوانید با ترغیب آن به جستجوی وب برای دریافت جدیدترین و بهروزترین دادهها، این موضوع را دور بزنید. اما این هنوز یک مرحله اضافی را طلب میکند که در Gemini واقعاً مورد نیاز نیست.
در کل باید گفت Gemini در جستجوی آنلاین و ادغام اطلاعاتی که مییابد در پاسخهای خود کمی ماهرتر از ChatGPT است.
وقتی ChatGPT به صورت آنلاین سر میزند و به دنبال اطلاعات میگردد، پاسخهای آن تا حدودی پویایی خود را از دست میدهند. اغلب به نظر میرسد که به جای انجام تجزیه و تحلیل جامع از تمام اطلاعاتی که میتواند به آن دسترسی داشته باشد و به نتیجه برسد، به سؤالات پاسخ میدهد یا پاسخهایی را بر اساس یک جستجوی اینترنتی و یک منبع اطلاعاتی واحد ارائه میدهد.
در اینجا یک مثال سریع از معنای این است. من اغلب از چتباتهای هوش مصنوعی استفاده میکنم تا یک نمای کلی از یک شرکت یا محصولات یا خدمات آن به من بدهد. با استفاده از همان پرسش (“درباره فلان سایت به من توضیح دهید”)، ChatGPT اغلب به سادگی یک تار بازاریابی را از وب سایت باز می کند.
در مدت کوتاهی که برای آزمایش آن داشتم، به نظر میرسد Gemini رویکرد ظریفتری دارد. این اطلاعاتی را که میتواند در حین تلاش برای ایجاد یک نمای کلی متعادل از ویژگیها پیدا کند، خلاصه میکند.
بنابراین، من میتوانم بگویم که این جایی است که Gemini جلوتر از رقیب خود قرار دارد.
اما این با پایان داستان فاصله زیادی دارد. وقتی نوبت به تجزیه هوشمند اطلاعاتی میشود که برای پاسخ آموزش داده شده است، ChatGPT همچنان به عنوان برنده ظاهر میشود.
کدام در تجزیه و تحلیل قدرتمندتر است؟
در این بخش رقابت خوبی برقرار است. Gemini در ارائه پاسخها از متون آنلاین بهتر است و ChatGPT در پاسخهای بدون اینترنت بهتر است.
قابلیتهای چند وجهی
هوش مصنوعی چندوجهی مدلهایی هستند که توانایی پردازش بیش از یک نوع داده را دارند. نسخههای اولیه ChatGPT فقط متن را می خواند و تولید میکرد. اما از زمانی که OpenAI موتور آن را به GPT-4 ارتقا داد، توانایی پردازش دادههای دیداری و صوتی را به دست آورد و آن را چند وجهی کرد. در آن سو نیز Gemini از ابتدا چند وجهی بود.
ChatGPT با استفاده از مدل DALL-E که توسط OpenAI نیز توسعه داده شده است، تصاویر تولید میکند. از طرف دیگر Gemini از موتور Imagen 2 گوگل استفاده میکند. هر دو به وضوح بسیار قدرتمند هستند و میتوانند نتایج شگفت انگیزی ایجاد کنند. با این حال، میتوانم بگویم که ChatGPT در ایجاد تصویری که دقیقاً مطابق با آنچه که من به دنبال آن بودم، زمانی که آنها را بر اساس همان اعلان مقایسه میکنیم، سازگارتر است.
یکی از تفاوتهایی که دیگران به آن اشاره کردهاند این است که Imagen 2 و Gemini در تولید تصاویر واقعی و با جزئیات کمی بهتر هستند. از سوی دیگر، ChatGPT در مدیریت روابط فضایی بین اشیاء در تصاویر خود برتر است و در تفسیر خلاقانه پرسشها بهتر است.
هر دو قادر به درک و نوشتن کدهای کامپیوتری در طیف وسیعی از زبانهای برنامه نویسی هستند. اگرچه تفاوتهای جزئی در نحوه انجام این کار وجود دارد.
نکته مهم این است که با ChatGPT یا Gemini نیازی نیست که برنامهنویس باشید.
شکی نیست که توانایی های مکالمه برتر ChatGPT مزایای قابل توجهی را در اینجا به آن میدهد. اگر کاملاً مطمئن نیستید که کد شما باید چه کاری انجام دهد یا در مورد بهترین راه برای ادغام آن نیست، بهتر است هنگام ایجاد راهنمایی روشن و مفید و ارائه پیشنهادات و نکات.
کدام مدل از لحاظ چندوجهی بودن بهتر است؟
این عنوان را دوباره به ChatGPT خواهیم داد. در حالی که Gemini عکس واقعی بهتری ایجاد میکند، ChatGPT تصاویری را ایجاد میکند که با آنچه کاربر درخواست میکند مطابقت بیشتری داشته باشد. Gemini در ایجاد کد فنی کمی بهتر به نظر میرسد، اما نمیتواند با ChatGPT به عنوان یک رابط مکالمه برای استفاده در هنگام ساخت و آزمایش مطابقت داشته باشد.
در مجموع کدام بهترین است؟ چتجیپیتی یا Gemini؟
هیچکدام از این دو مدل کامل نیستند. هر دو هنوز از اطلاعات غلط رنج میبرند و در موارد بسیاری اطلاعاتی را ارائه میدهند که کاملا اشتباه است. برای مثال، Gemini به من گفت که Dall-E 2 OpenAI از فناوری مدل انتشاری استفاده نمیکند و ChatGPT به اشتباه به من گفت که Gemini قادر به تولید تصاویر نیست!
اما اگر شما فقط میخواهید در یکی از این دو اشتراک خریداری کنید، بهتر است به سراغ ChatGPT Pro بروید.
البته اگر به شدت به اکوسیستم گوگل علاقه دارید، توانایی Gemini برای ارتباط با جیمیل و گوگل داکز احتمالاً برای شما جذاب خواهد بود. به طور مشابه، همچنین اگر یک کدنویس باتجربه هستید و نیاز اصلی شما کدنویسی است، حتما Gemini را هم بررسی کنید و به مایکروسافت کوپایلت نیز نگاهی بیندازید.
برای نوشتن و ایجاد اسناد، خلاصهنویسی، تولید تصویر همه منظوره و یادگیری از طریق مکالمه، من میگویم ChatGPT در حال حاضر بهتر است. به همین دلیل، همچنان در حال حاضر جایگاه خود را به عنوان بهترین چتبات موجود حفظ میکند.