OpenAI رسماً اولین عامل هوش مصنوعی خود را با نام Operator معرفی کرد. این عامل در داخل مرورگر وب عمل میکند تا وظایف را برای شما انجام دهد و در حال حاضر به عنوان یک پیشنمایش تحقیقاتی محدود در دسترس است.
Operator میتواند رزرواسیون شام را انجام دهد، فرمها را پر کند و سایر وظایف وب را تکمیل کند. OpenAI همیشه در جستجوی چیزهای بزرگ بعدی برای اضافه کردن به ChatGPT است و پس از ماهها شایعه، از جمله گزارشی از اوایل این هفته که از راهاندازی آن خبر میداد، اولین عامل هوش مصنوعی این غول فناوری در دسترس قرار گرفت. Operator برای انجام وظایف وب برای شما طراحی شده است و همه این کارها با یک لمس دکمه انجام میشود.
در اصل، Operator یک عامل استفادهکننده از رایانه (CUA) است که از مهارتهای بصری GPT-4o برای مرور و جستجوی وب استفاده میکند. این بدان معناست که میتواند زمینه آنچه را که باید جستجو کند درک کند و به لطف چندوجهی بودن آن، آنچه را که در حین جستجو میبیند درک میکند. این سرویس در حال حاضر به عنوان یک پیشنمایش تحقیقاتی برای مشترکین ChatGPT Pro در ایالات متحده در دسترس است.
Operator به عنوان “عاملی که میتواند از مرورگر خود برای انجام وظایف برای شما استفاده کند” توصیف میشود. OpenAI دموئی را منتشر کرد که نشان میدهد Operator چگونه مانند ما (یعنی انسانها) در وب جستجو میکند. شما میتوانید از Operator بخواهید که رزرواسیون شام شما را رزرو کند، یک فرم طولانی را پر کند، مواد غذایی را از یک سرویس سفارش دهد یا حتی بلیط هواپیما رزرو کند. همانطور که در دمو نشان داده شده است، میتواند از OpenTable برای یافتن و رزرو در یک رستوران استفاده کند. Operator حتی مراحل خود را به شما نشان خواهد داد.
Operator یک “پیشنمایش تحقیقاتی” است، بنابراین بدانید که در مراحل اولیه خود قرار دارد. OpenAI برخی محدودیتها را اعمال میکند. ما هنوز فرصت استفاده مستقیم از آن را نداشتهایم، اما مطمئناً چشمگیر به نظر میرسد. این اولین ورود OpenAI به دنیای عوامل هوش مصنوعی است که احتمالاً موضوع سال در حوزه هوش مصنوعی خواهد بود.
OpenAI در یک پست وبلاگی که Operator را معرفی میکند، مینویسد که “یکی از اولین عوامل ما است که هوش مصنوعی قادر به انجام کارها به طور مستقل برای شما هستند – شما به آن یک کار میدهید و آن را اجرا میکند.” این اشاره میکند که نه تنها عوامل دیگری در خط لوله وجود دارند – Altman این موضوع را در حین دمو زنده تأیید کرد – بلکه همه آنها بر اساس مفهوم انجام کارها برای شما استوار هستند – یک گام بزرگ در تلاش برای مفیدتر کردن هوش مصنوعی و بازگرداندن برخی از زمان ما.
Operator توسط مدل جدید عامل استفادهکننده از رایانه (CUA) پشتیبانی میشود که مهارتهای بینایی GPT4o را با استدلال پیشرفته ترکیب میکند. همه اینها با هم ترکیب میشوند تا به Operator اجازه دهند عناصر داخل یک مرورگر – نوار جستجو، دکمههای مختلف و محتوای روی صفحه – را درک و از آنها استفاده کند.
OpenAI توضیح میدهد که “Operator میتواند از طریق اسکرینشاتها “ببیند” و با استفاده از تمام اقداماتی که یک ماوس و صفحه کلید اجازه میدهند با یک مرورگر “تعامل” کند”، که به آن اجازه میدهد از نظر عملکردی از یک مرورگر برای تکمیل یک کار استفاده کند. این بسیار جالب است، به خصوص اگر با نرخ موفقیت بالایی کار کند و طبق پست وبلاگ، میتواند خود را اصلاح کند.
با این حال، مانند بسیاری از ابزارها و مهارتهای جدید هوش مصنوعی، احتمالاً مدتی طول میکشد تا این فناوری در دنیای واقعی واقعاً مفید شود. این همچنین نیازمند آن است که OpenAI آن را برای افراد بیشتری باز کند، اگرچه به عنوان یک پیشنمایش تحقیقاتی اولیه، مطمئناً یک دمو چشمگیر است.
در حال حاضر، اگر در ایالات متحده هستید و مشترک ChatGPT Pro هستید، میتوانید آن را در وبسایت OpenAI امتحان کنید. مدیرعامل OpenAI، سم آلتمن، اذعان کرد که در نهایت در کشورهای دیگر نیز عرضه خواهد شد و به اشتراک ChatGPT Plus اضافه خواهد شد. همانطور که از برخی از اعلامیههای 12 روز OpenAI به یاد میآوریم، احتمالاً اروپا کمی بیشتر طول خواهد کشید.
بروزترین اخبار تکنولوژی را در هارپی تک بخوانید