گوگل ابزار جدید هوش مصنوعی خود به نام ویسک (Whisk) را معرفی کرده است که به کاربران اجازه میدهد عکسهای خود را آپلود کنند و تصویری ترکیبی و ساختهشده توسط هوش مصنوعی دریافت کنند – بدون نیاز به وارد کردن متن.
در Whisk، کاربران میتوانند تصاویر ورودی که شامل موضوعات، مکانها و سبکها هستند را وارد کنند و این ابزار همه عناصر را در یک تصویر ترکیب میکند. به گفته گوگل، Whisk یک «ابزار خلاقانه» برای الهامگیری سریع است و نه یک «ویرایشگر تصویر سنتی»؛ بنابراین هدف اصلی این ابزار، سرگرمی و کاوش است نه تولید آثار حرفهای.
شرکتهای بزرگ فناوری مانند گوگل و OpenAI بهشدت در حال انتشار محصولات هوش مصنوعی مصرفی هستند تا تواناییهای این فناوریها را نشان دهند، حتی با وجود نگرانیها در مورد نبود محافظتهای کافی در توسعه هوش مصنوعی.
از زمانی که OpenAI ابزار تولید تصویر متنی خود یعنی DALL-E را در سال ۲۰۲۱ عرضه کرد، هنر تولیدشده توسط هوش مصنوعی در شبکههای اجتماعی محبوب شد و به یک ویژگی کلیدی در محصولات مصرفی تبدیل شد. Whisk گوگل بر این ایده بنا شده است اما تمرکز خود را بر تولید تصویر از تصویر بهجای متن گذاشته است.
ترکیب و تغییر تصاویر با Whisk
Whisk به کاربران این امکان را میدهد که خروجی نهایی را با ویرایش ورودیها و ترکیب دستهبندیهای مختلف تغییر دهند. کاربران میتوانند تصاویر مختلفی مانند عروسکهای نرم، پینهای مینایی یا برچسبها تولید کنند. اگرچه امکان اضافه کردن متن برای جزئیات بیشتر وجود دارد، اما استفاده از متن برای ایجاد تصویر ضروری نیست.
توماس ایلجیک، مدیر محصول Google Labs، گفت: «Whisk به گونهای طراحی شده است که به کاربران اجازه دهد موضوعات، صحنهها و سبکها را به روشهای جدید و خلاقانه ترکیب کنند و بهجای ویرایش دقیق، اکتشاف سریع بصری ارائه دهد.»
این ابزار از هوش مصنوعی اصلی گوگل یعنی Gemini که در دسامبر ۲۰۲۳ عرضه شد، و همچنین نسل جدید ابزار تولید تصویر متنی DeepMind به نام Imagen 3 استفاده میکند.
نحوه کار Whisk
وقتی کاربران تصویری را آپلود میکنند، Gemini یک شرح کوتاه از تصویر تولید کرده و آن را به Imagen 3 ارسال میکند. این فرایند بهجای تولید یک نسخه دقیق از سوژه، «جوهره» آن را ثبت میکند. بنابراین، تصویر نهایی ممکن است با ورودی اصلی تفاوت داشته باشد، از جمله تغییراتی در ویژگیهایی مانند قد، مدل مو یا رنگ پوست.
در راهاندازی اولیه ابزار تولید تصویر متنی Gemini، گوگل به دلیل تولید تصاویر تاریخی نادرست مورد انتقاد قرار گرفت. با Whisk، شرکت در تلاش است این فناوری را بهبود دهد.
مراحل اولیه توسعه
در حال حاضر، Whisk از طریق Google Labs در ایالات متحده در دسترس است. این ابزار بهعنوان یک ویژگی آزمایشی معرفی شده و قرار است در آینده توسعه یابد.
رقابت در زمینه محصولات هوش مصنوعی مصرفی همچنان ادامه دارد. برای مثال، OpenAI اخیراً Sora، ابزار تولید ویدئو از متن را عرضه کرده است که رقابت برای نوآوری در این حوزه را برجسته میکند.
دن ایوز، مدیرعامل ودبوش سکیوریتیز Whisk را بهعنوان یک «لحظه قدرتنمایی» برای گوگل در چشمانداز رقابتی هوش مصنوعی توصیف کرد. او همچنین بر اهمیت استراتژیک DeepMind برای جاهطلبیهای گستردهتر گوگل در زمینه هوش مصنوعی تأکید کرد و گفت که محصولاتی مانند Whisk و یک سیستمعامل اندروید نسل بعدی از اجزای کلیدی برنامههای گوگل برای سال ۲۰۲۵ هستند.