Компания OpenAI анонсировала новую флагманскую модель генеративного искусственного интеллекта под названием GPT-4o, где «o» означает omni. Разработчики заявляют, что модель может обрабатывать текст, речь и видео и будет доступна пользователям в течение нескольких недель.
По словам технического директора OpenAI, GPT-4o обеспечивает интеллект «уровня GPT-4» (предыдущая языковая модель компании), но улучшает ее возможности в плане взаимодействия с пользователем и миром вокруг него. Он назвал это «будущим взаимодействия между людьми и машинами».
GPT-4o значительно улучшает опыт работы с чат-ботом OpenAI на базе искусственного интеллекта, ChatGPT. Платформа уже давно предлагает голосовой режим, который преобразует ответы чат-бота из текста в речь, но GPT-4o позволяет людям общаться с ним как с реальным собеседником.
Например, пользователи могут задать вопрос ChatGPT на базе GPT-4o и прервать ChatGPT во время ответа. Судя по демонстрациям, модель обеспечивает отзывчивость практически в режиме реального времени и даже может уловить нюансы в голосе пользователя, в ответ генерируя голоса в «ряде различных эмоциональных стилей» (включая пение).
Кроме того, ChatGPT на базе GPT-4o сможет буквально «видеть» мир вокруг через камеру мобильного телефона, описывать и анализировать происходящее вокруг. По словам Мурати, эти функции будут развиваться в будущем. В то время как сейчас GPT-4o может посмотреть на изображение меню на другом языке и перевести его, в будущем она сможет позволить ChatGPT, например, «смотреть» трансляцию спортивной игры и на лету объяснять пользователю ее правила.
Ранее Bloomberg писало, что компания Apple заключила соглашение с OpenAI в области внедрения технологий искусственного интеллекта (ИИ) в смартфоны iPhone. Функции с ИИ, которые будут доступны в новой модели устройств Apple, компания анонсирует в июне на ежегодной Всемирной конференции разработчиков (Worldwide Developers Conference).