گوگل با معرفی دو مدل جدید در حوزه تبدیل متن به تصویر—Imagen 4 و نسخه حرفهایتر آن با نام Imagen 4 Ultra—گام دیگری در جهت پیشرفت فناوری هوش مصنوعی برداشته است. این مدلها نسبت به نسل قبلی خود (Imagen 3) از دقت بیشتری در تفسیر و اجرای فرامین متنی برخوردارند، اما هنوز از نظر خلاقیت بصری و جذابیت هنری فاصلهای با رقبای سرشناس بازار دارند.
به گزارش ایتنا و به نقل از Engadget، نسخه پایه Imagen 4 بهگونهای طراحی شده که برای اغلب کاربردهای عمومی قابل استفاده باشد، در حالی که Imagen 4 Ultra با تمرکز بر درک دقیقتر جزئیات متنی، خروجیهایی فنیتر و منظمتر ارائه میدهد. البته استفاده از نسخه Ultra با هزینهی بیشتری همراه است؛ برای هر تصویر باید ۰.۰۶ دلار پرداخت شود، در حالی که مدل معمولی با ۰.۰۴ دلار قابلاستفاده است.
در نمونههای نمایش دادهشده از Imagen 4 Ultra، تصاویری مانند یک کمیک سهپنله با حملهی مارمولک فضایی، کارتپستالی از شهر کیوتو، زوج کوهنورد در طبیعت، و عکسی با سبک آوانگارد تولید شدهاند. این تصاویر با وجود دقت بالا، هنوز حال و هوای صنعتی و ماشینی دارند و از نظر خلاقیت و روح هنری، جای کار دارند.

مقایسه این مدل با پلتفرمهایی چون Dall-E 3 و Midjourney 7 نشان میدهد که Imagen 4 با وجود بهبودهای فنی، هنوز نتوانسته تجربه بصری منحصربهفرد و هیجانانگیز ایجاد کند. بسیاری از کاربران، با گذشت زمان، نسبت به تصاویر تولیدشده با هوش مصنوعی احساس تکراریبودن و کاهش جذابیت پیدا کردهاند؛ چرا که استفاده غالب این آثار در تبلیغات و تزئینات رسانههای اجتماعی خلاصه شده است.