Web Analytics Made Easy - Statcounter

ابزار هوش مصنوعی گوگل ویسک از دستورات تصویری به‌جای متن استفاده می‌کند

Whisk ابزار جدید هوش مصنوعی گوگل است که با استفاده از تصاویر ورودی، بدون نیاز به متن، تصاویر ترکیبی و خلاقانه تولید می‌کند.

گوگل ابزار جدید هوش مصنوعی خود به نام ویسک (Whisk) را معرفی کرده است که به کاربران اجازه می‌دهد عکس‌های خود را آپلود کنند و تصویری ترکیبی و ساخته‌شده توسط هوش مصنوعی دریافت کنند – بدون نیاز به وارد کردن متن.

در Whisk، کاربران می‌توانند تصاویر ورودی که شامل موضوعات، مکان‌ها و سبک‌ها هستند را وارد کنند و این ابزار همه عناصر را در یک تصویر ترکیب می‌کند. به گفته گوگل، Whisk یک «ابزار خلاقانه» برای الهام‌گیری سریع است و نه یک «ویرایشگر تصویر سنتی»؛ بنابراین هدف اصلی این ابزار، سرگرمی و کاوش است نه تولید آثار حرفه‌ای.

شرکت‌های بزرگ فناوری مانند گوگل و OpenAI به‌شدت در حال انتشار محصولات هوش مصنوعی مصرفی هستند تا توانایی‌های این فناوری‌ها را نشان دهند، حتی با وجود نگرانی‌ها در مورد نبود محافظت‌های کافی در توسعه هوش مصنوعی.

از زمانی که OpenAI ابزار تولید تصویر متنی خود یعنی DALL-E را در سال ۲۰۲۱ عرضه کرد، هنر تولید‌شده توسط هوش مصنوعی در شبکه‌های اجتماعی محبوب شد و به یک ویژگی کلیدی در محصولات مصرفی تبدیل شد. Whisk گوگل بر این ایده بنا شده است اما تمرکز خود را بر تولید تصویر از تصویر به‌جای متن گذاشته است.

ترکیب و تغییر تصاویر با Whisk

Whisk به کاربران این امکان را می‌دهد که خروجی نهایی را با ویرایش ورودی‌ها و ترکیب دسته‌بندی‌های مختلف تغییر دهند. کاربران می‌توانند تصاویر مختلفی مانند عروسک‌های نرم، پین‌های مینایی یا برچسب‌ها تولید کنند. اگرچه امکان اضافه کردن متن برای جزئیات بیشتر وجود دارد، اما استفاده از متن برای ایجاد تصویر ضروری نیست.

با ابزار ویسک کمتر درخواست کنید، بیشتر بازی کنید
کمتر درخواست کنید، بیشتر سرگرم شوید

توماس ایلجیک، مدیر محصول Google Labs، گفت: «Whisk به گونه‌ای طراحی شده است که به کاربران اجازه دهد موضوعات، صحنه‌ها و سبک‌ها را به روش‌های جدید و خلاقانه ترکیب کنند و به‌جای ویرایش دقیق، اکتشاف سریع بصری ارائه دهد.»

این ابزار از هوش مصنوعی اصلی گوگل یعنی Gemini که در دسامبر ۲۰۲۳ عرضه شد، و همچنین نسل جدید ابزار تولید تصویر متنی DeepMind به نام Imagen 3 استفاده می‌کند.

نحوه کار Whisk

وقتی کاربران تصویری را آپلود می‌کنند، Gemini یک شرح کوتاه از تصویر تولید کرده و آن را به Imagen 3 ارسال می‌کند. این فرایند به‌جای تولید یک نسخه دقیق از سوژه، «جوهره» آن را ثبت می‌کند. بنابراین، تصویر نهایی ممکن است با ورودی اصلی تفاوت داشته باشد، از جمله تغییراتی در ویژگی‌هایی مانند قد، مدل مو یا رنگ پوست.

در راه‌اندازی اولیه ابزار تولید تصویر متنی Gemini، گوگل به دلیل تولید تصاویر تاریخی نادرست مورد انتقاد قرار گرفت. با Whisk، شرکت در تلاش است این فناوری را بهبود دهد.

مراحل اولیه توسعه

در حال حاضر، Whisk از طریق Google Labs در ایالات متحده در دسترس است. این ابزار به‌عنوان یک ویژگی آزمایشی معرفی شده و قرار است در آینده توسعه یابد.

رقابت در زمینه محصولات هوش مصنوعی مصرفی همچنان ادامه دارد. برای مثال، OpenAI اخیراً Sora، ابزار تولید ویدئو از متن را عرضه کرده است که رقابت برای نوآوری در این حوزه را برجسته می‌کند.

دن ایوز، مدیرعامل ودبوش سکیوریتیز Whisk را به‌عنوان یک «لحظه قدرت‌نمایی» برای گوگل در چشم‌انداز رقابتی هوش مصنوعی توصیف کرد. او همچنین بر اهمیت استراتژیک DeepMind برای جاه‌طلبی‌های گسترده‌تر گوگل در زمینه هوش مصنوعی تأکید کرد و گفت که محصولاتی مانند Whisk و یک سیستم‌عامل اندروید نسل بعدی از اجزای کلیدی برنامه‌های گوگل برای سال ۲۰۲۵ هستند.