ابزار هوش مصنوعی گوگل ویسک از دستورات تصویری به‌جای متن استفاده می‌کند

Whisk ابزار جدید هوش مصنوعی گوگل است که با استفاده از تصاویر ورودی، بدون نیاز به متن، تصاویر ترکیبی و خلاقانه تولید می‌کند.

گوگل ابزار جدید هوش مصنوعی خود به نام ویسک (Whisk) را معرفی کرده است که به کاربران اجازه می‌دهد عکس‌های خود را آپلود کنند و تصویری ترکیبی و ساخته‌شده توسط هوش مصنوعی دریافت کنند – بدون نیاز به وارد کردن متن.

در Whisk، کاربران می‌توانند تصاویر ورودی که شامل موضوعات، مکان‌ها و سبک‌ها هستند را وارد کنند و این ابزار همه عناصر را در یک تصویر ترکیب می‌کند. به گفته گوگل، Whisk یک «ابزار خلاقانه» برای الهام‌گیری سریع است و نه یک «ویرایشگر تصویر سنتی»؛ بنابراین هدف اصلی این ابزار، سرگرمی و کاوش است نه تولید آثار حرفه‌ای.

شرکت‌های بزرگ فناوری مانند گوگل و OpenAI به‌شدت در حال انتشار محصولات هوش مصنوعی مصرفی هستند تا توانایی‌های این فناوری‌ها را نشان دهند، حتی با وجود نگرانی‌ها در مورد نبود محافظت‌های کافی در توسعه هوش مصنوعی.

از زمانی که OpenAI ابزار تولید تصویر متنی خود یعنی DALL-E را در سال ۲۰۲۱ عرضه کرد، هنر تولید‌شده توسط هوش مصنوعی در شبکه‌های اجتماعی محبوب شد و به یک ویژگی کلیدی در محصولات مصرفی تبدیل شد. Whisk گوگل بر این ایده بنا شده است اما تمرکز خود را بر تولید تصویر از تصویر به‌جای متن گذاشته است.

ترکیب و تغییر تصاویر با Whisk

Whisk به کاربران این امکان را می‌دهد که خروجی نهایی را با ویرایش ورودی‌ها و ترکیب دسته‌بندی‌های مختلف تغییر دهند. کاربران می‌توانند تصاویر مختلفی مانند عروسک‌های نرم، پین‌های مینایی یا برچسب‌ها تولید کنند. اگرچه امکان اضافه کردن متن برای جزئیات بیشتر وجود دارد، اما استفاده از متن برای ایجاد تصویر ضروری نیست.

با ابزار ویسک کمتر درخواست کنید، بیشتر بازی کنید — کمتر درخواست کنید، بیشتر سرگرم شوید

توماس ایلجیک، مدیر محصول Google Labs، گفت: «Whisk به گونه‌ای طراحی شده است که به کاربران اجازه دهد موضوعات، صحنه‌ها و سبک‌ها را به روش‌های جدید و خلاقانه ترکیب کنند و به‌جای ویرایش دقیق، اکتشاف سریع بصری ارائه دهد.»

این ابزار از هوش مصنوعی اصلی گوگل یعنی Gemini که در دسامبر ۲۰۲۳ عرضه شد، و همچنین نسل جدید ابزار تولید تصویر متنی DeepMind به نام Imagen 3 استفاده می‌کند.

نحوه کار Whisk

وقتی کاربران تصویری را آپلود می‌کنند، Gemini یک شرح کوتاه از تصویر تولید کرده و آن را به Imagen 3 ارسال می‌کند. این فرایند به‌جای تولید یک نسخه دقیق از سوژه، «جوهره» آن را ثبت می‌کند. بنابراین، تصویر نهایی ممکن است با ورودی اصلی تفاوت داشته باشد، از جمله تغییراتی در ویژگی‌هایی مانند قد، مدل مو یا رنگ پوست.

در راه‌اندازی اولیه ابزار تولید تصویر متنی Gemini، گوگل به دلیل تولید تصاویر تاریخی نادرست مورد انتقاد قرار گرفت. با Whisk، شرکت در تلاش است این فناوری را بهبود دهد.

مراحل اولیه توسعه

در حال حاضر، Whisk از طریق Google Labs در ایالات متحده در دسترس است. این ابزار به‌عنوان یک ویژگی آزمایشی معرفی شده و قرار است در آینده توسعه یابد.

رقابت در زمینه محصولات هوش مصنوعی مصرفی همچنان ادامه دارد. برای مثال، OpenAI اخیراً Sora، ابزار تولید ویدئو از متن را عرضه کرده است که رقابت برای نوآوری در این حوزه را برجسته می‌کند.

دن ایوز، مدیرعامل ودبوش سکیوریتیز Whisk را به‌عنوان یک «لحظه قدرت‌نمایی» برای گوگل در چشم‌انداز رقابتی هوش مصنوعی توصیف کرد. او همچنین بر اهمیت استراتژیک DeepMind برای جاه‌طلبی‌های گسترده‌تر گوگل در زمینه هوش مصنوعی تأکید کرد و گفت که محصولاتی مانند Whisk و یک سیستم‌عامل اندروید نسل بعدی از اجزای کلیدی برنامه‌های گوگل برای سال ۲۰۲۵ هستند.

ابزار هوش مصنوعی گوگل ویسک از دستورات تصویری به‌جای متن استفاده می‌کند

Whisk ابزار جدید هوش مصنوعی گوگل است که با استفاده از تصاویر ورودی، بدون نیاز به متن، تصاویر ترکیبی و خلاقانه تولید می‌کند.

ترکیب و تغییر تصاویر با Whisk

نحوه کار Whisk

مراحل اولیه توسعه

دنیای شگفت‌انگیز کارتون و انیمیشن، رایگان و برای همه سنین کودک

بهترین اپلیکیشن دانلود رمان رایگان برای موبایل؛ باغ استور را از دست ندهید!

API اینستاگرام؛ دسترسی آسان، سریع و بدون محدودیت به اطلاعات اینستاگرام

رم سرور چیست؟ (اهمیت رم در سرور)

گزارش ویژه: آیا دوران تبلیغات برای افزایش فروش سایت فروشگاهی به پایان رسیده است؟ (استراتژی جایگزین)

چطور فالوورهای واقعی اینستاگرام جذب کنیم؟ راهکارهایی که واقعاً جواب می‌دهند!

5 اشتباه رایج که موقع خرید ساعت هوشمند طرح اپل واچ نباید انجام بدید!

مناسب‌ترین کارت گرافیک برای بازی و گیمینگ در سال ۲۰۲۵ | معرفی ۱۰ گزینه برتر برای گیمرها

بهترین دانلود منیجر برای آیفون: راهنمای انتخاب دانلود منیجر مناسب برای دستگاه‌های اپل

بهترین راه برای جذب مشتریان جدید با شماره‌جو اینباکسینو

مقایسه Gemini و ChatGPT: کدام یک بهتر است؟

چگونه از قفل شدن خودکار ویندوز 11 یا ویندوز 10 جلوگیری کنیم؟

افزونه‌ی جستجوی ChatGPT برای گوگل کروم معرفی شد

هوش مصنوعی پرپلکیسیتی به قابلیت‌های جدیدی مجهز می‌شود

راهنمای خرید دوربین ثبت وقایع خودرو

چگونه حساب جیمیل هک شده را بازیابی کنیم؟

با ۱۰ ویژگی اولیه هوش اپل (Apple Intelligence) آشنا شوید

داک‌داک‌گو چیست؟

بررسی بازی‌های ایردراپ تلگرام

هوش مصنوعی هنوز نمی‌تواند جایگزین جستجوی گوگل شود