گزارش شده که شرکت OpenAI مدل جدید GPT-4o را راهاندازی میکند. در همین رابطه، میرا موراتی، مدیر ارشد اجرایی OpenAI در روز دوشنبه در یک اطلاعیه پخش زنده گفت که مدل بهروزرسانیشده «بسیار سریعتر» است و «قابلیتهای متن، بینایی و صدا» را بهبود میبخشد. موراتی افزود: این برای همه کاربران رایگان خواهد بود.
در یک پست وبلاگی، OpenAI اشاره کرد که قابلیتهای GPT-4o «به مرور ارائه خواهند شد»، اما قابلیتهای متن و تصویر آن از امروز در ChatGPT شروع به کار خواهند کرد. سم آلتمن، مدیر عامل OpenAI، اعلام کرد که این یک مدل «بومی چند وجهی» است، به این معنی که میتواند محتوا تولید کند یا دستورات را در صدا، متن یا تصاویر درک کند. آلتمن در توییتر اضافه کرد، توسعهدهندگانی که میخواهند از GPT-4o استفاده کنند، به API دسترسی خواهند داشت که نصف قیمت و دو برابر سریعتر از GPT-4 Turbo است.
ویژگیهای جدیدی به عنوان بخشی از مدل GPT-4o به حالت صوتی ChatGPT میآیند. این اپلیکیشن میتواند بهعنوان یک دستیار صوتی شبیه به Her عمل کند، بهطور همزمان پاسخ دهد و دنیای اطراف شما را مشاهده کند. مدل صوتی فعلی که اکنون با آن سر و کار داریم محدودتر است به طوری که در هر زمان به یک درخواست پاسخ میدهد و صدای محیط را درک نمیکند.
آلتمن در یک پست وبلاگی پس از رویداد پخش زنده، مسیر OpenAI را منعکس کرد. او گفت که چشمانداز اصلی شرکت «ایجاد انواع مزیتها برای جهان» بوده، اما اکنون چشمانداز تغییر کرده است. OpenAI به دلیل منبعباز نبودن مدلهای پیشرفته هوش مصنوعی خود مورد انتقاد قرار گرفته، اما اکنون طبق نظر آلتمن تمرکز شرکت بر روی در دسترس قرار دادن این مدلها مثل GPT-4o برای توسعهدهندگان از طریق API های پولی تغییر کرده است. اکنون به نظر میرسد که این شرکت هوش مصنوعی را ایجاد میکند و سپس افراد دیگر از آن برای ایجاد انواع چیزهای شگفتانگیز استفاده میکنند و آنجاست که همه ما از آنها سود میبریم.
قبل از راهاندازی GPT-4o، گزارشهای متناقضی پیشبینی میکردند که OpenAI یک دستیار صوتی جستجوی هوش مصنوعی مبنی بر GPT-4 یا GPT-5 را در جهت برتری گرفتن از رقبای خود، Google و Perplexity، معرفی میکند. اکنون OpenAI این راهاندازی را درست قبل از کنفرانس I/O گوگل زمانبندی کرد، جایی که انتظار داریم شاهد عرضه محصولات مختلف هوش مصنوعی از تیم این شرکت باشیم.