موتورهای جستجوی هوش مصنوعی دقت پایینی دارند

مطالعات جدید نشان می‌دهد موتورهای جستجوی هوش مصنوعی در ۶۰ درصد موارد اطلاعات نادرست ارائه می‌دهند و دقت پایینی دارند.

مطالعات نشان می‌دهد که موتورهای جستجوی مبتنی بر هوش مصنوعی عملکرد ضعیفی در زمینه دقت دارند. این تحقیق هشت موتور جستجوی هوش مصنوعی شامل چت‌جی‌پی‌تی سرچ، پرپلکسیتی، پرپلکسیتی پرو، جمینای، دیپ‌سیک سرچ، گراک ۲ سرچ، گراک ۳ سرچ و کوپایلت را مورد ارزیابی قرار داد و نرخ کلی نادرستی پاسخ‌ها را ۶۰ درصد اعلام کرد. در این میان، گراک ۳ سرچ بدترین عملکرد را با نرخ خطای ۹۴ درصدی داشت.

پژوهشگران ۲۰۰ مقاله خبری را از ۲۰ رسانه مختلف انتخاب کردند. هر مقاله در هنگام جستجوی یک نقل‌قول مستقیم در گوگل، جزو سه نتیجه برتر قرار داشت. سپس همین پرس‌وجوها در موتورهای جستجوی هوش مصنوعی وارد شدند و پاسخ‌ها بر اساس تطابق با مقاله اصلی، نام رسانه و آدرس اینترنتی (URL) مورد ارزیابی قرار گرفتند.

پاسخ‌ها در طیفی از «کاملاً صحیح» تا «کاملاً نادرست» طبقه‌بندی شدند. به‌جز پرپلکسیتی و نسخه حرفه‌ای آن، سایر ابزارهای هوش مصنوعی عملکرد ضعیفی داشتند. نکته نگران‌کننده آن است که این پاسخ‌های نادرست با اطمینان بالا ارائه می‌شدند، که خود منجر به تقویت اطلاعات غلط می‌شود.

یافته‌ها بر یک مشکل اساسی در مدل‌های زبانی بزرگ (LLM) تأکید دارند؛ این مدل‌ها اغلب اطلاعات نادرست را با اعتماد به نفس بالا ارائه می‌دهند، حتی در مواقعی که نادرستی آن‌ها اثبات شود. برای مثال، چت‌جی‌پی‌تی سرچ به تمام ۲۰۰ پرس‌وجو پاسخ داد، اما فقط ۲۸ درصد از پاسخ‌ها کاملاً صحیح بودند و ۵۷ درصد کاملاً نادرست ارزیابی شدند.

کوپایلت مایکروسافت نیز به بیش از نیمی از پرس‌وجوها (۱۰۴ مورد از ۲۰۰) پاسخ نداد. از میان ۹۶ پاسخ داده‌شده، تنها ۱۶ مورد کاملاً صحیح بودند که نشان‌دهنده نرخ خطای تقریبی ۷۰ درصد است. علیرغم عرضه نسخه‌های پولی با قیمت‌های بالا (مانند گراک ۳ سرچ با هزینه ماهانه ۴۰ دلار و پرپلکسیتی پرو با ۲۰ دلار در ماه) مطالعه نشان داد که این نسخه‌ها تفاوت معناداری در دقت ندارند و حتی در برخی موارد نرخ خطای بالاتری دارند.

این نتایج نگرانی‌هایی جدی درباره نبود شفافیت از سوی شرکت‌های ارائه‌دهنده این ابزارها ایجاد کرده است، به‌ویژه در شرایطی که کاربران برای دسترسی به این مدل‌ها باید هزینه‌های بالایی پرداخت کنند. در حالی که برخی کاربران از سرعت، تجربه کاربری و نبود تبلیغات در این ابزارها رضایت دارند، این مطالعه تصویری مبتنی بر داده از نقص‌های ساختاری و مداوم در اطلاعات تولیدشده توسط هوش مصنوعی ارائه می‌دهد.

جزئیات کامل این پژوهش در مقاله‌ای از مرکز تاو در Columbia Journalism Review منتشر شده است.