14 мая 2024, 7:47
Источник knews.kg
Комментарии
В понедельник OpenAI анонсировала новую флагманскую модель генеративного искусственного интеллекта, которую они назвали GPT-4o — буква "o" означает "omni", что указывает на способность модели обрабатывать текст, речь и видео. GPT-4o планируется "итеративно" внедрять в продуктах компании для разработчиков и потребителей в течение следующих нескольких недель.
Технический директор OpenAI Мира Мурати заявила, что GPT-4o обеспечивает интеллект "уровня GPT-4", но улучшает возможности GPT-4 в различных модальностях и средах.
"GPT-4o влияет на голос, текст и зрение", — сказал Мурати во время потоковой презентации в офисе OpenAI в Сан-Франциско в понедельник. "И это невероятно важно, потому что мы смотрим в будущее взаимодействия между нами и машинами".
GPT-4 Turbo , предыдущая "ведущая и самая продвинутая" модель OpenAI, была обучена сочетанию изображений и текста и могла анализировать изображения и текст для выполнения таких задач, как извлечение текста из изображений или даже описание содержимого этих изображений. Но GPT-4o добавляет в смесь речь. GPT-4o значительно улучшает работу чат-бота OpenAI с искусственным интеллектом ChatGPT . Платформа уже давно предлагает голосовой режим , который расшифровывает ответы чат-бота с использованием модели преобразования текста в речь, но GPT-4o расширяет возможности этого, позволяя пользователям взаимодействовать с ChatGPT больше как с помощником.
Например, пользователи могут задать вопрос ChatGPT на базе GPT-4o и прервать ChatGPT, пока он отвечает. По словам OpenAI, модель обеспечивает реакцию "в реальном времени" и может даже улавливать нюансы голоса пользователя, генерируя в ответ голоса "в различных эмоциональных стилях" (включая пение). GPT-4o также расширяет возможности видения ChatGPT. Имея фотографию или экран рабочего стола, ChatGPT теперь может быстро отвечать на связанные вопросы, начиная от "Что происходит в этом программном коде?" на "Какую марку рубашки носит этот человек?" По словам Мурати, в будущем эти функции будут развиваться дальше. Хотя сегодня GPT-4o может просматривать изображение меню на другом языке и переводить его, в будущем модель может позволить ChatGPT, например, "смотреть" спортивную игру в прямом эфире и объяснять вам правила.
"Мы знаем, что эти модели становятся все более и более сложными, но мы хотим, чтобы опыт взаимодействия на самом деле стал более естественным, легким, и чтобы вы вообще не сосредотачивались на пользовательском интерфейсе, а просто сосредоточились на сотрудничестве с ChatGPT", — сказал Мурати. "Последние пару лет мы были сосредоточены на повышении интеллекта этих моделей… Но впервые мы действительно делаем огромный шаг вперед, когда дело касается простоты использования".
OpenAI утверждает, что GPT-4o также более многоязычен и обладает улучшенной производительностью примерно на 50 языках. По словам компании , в API OpenAI и службе OpenAI Microsoft Azure GPT-4o в два раза быстрее, вдвое дешевле и имеет более высокие ограничения по скорости, чем GPT-4 Turbo.
В настоящее время голосовая связь не является частью API GPT-4o для всех клиентов. OpenAI, ссылаясь на риск неправильного использования, заявляет, что планирует впервые запустить поддержку новых аудиовозможностей GPT-4o для "небольшой группы доверенных партнеров" в ближайшие недели.
GPT-4o доступен на бесплатном уровне ChatGPT, начиная с сегодняшнего дня, а также для подписчиков премиальных планов OpenAI ChatGPT Plus и Team с ограничениями на количество сообщений "в 5 раз выше". (OpenAI отмечает, что ChatGPT автоматически переключится на GPT-3.5 , более старую и менее функциональную модель, когда пользователи достигнут предела скорости.) Улучшенный голосовой интерфейс ChatGPT, основанный на GPT-4o, появится в альфа-версии для пользователей Plus в следующем месяце или Итак, наряду с вариантами, ориентированными на предприятия . В связанных новостях OpenAI объявила, что выпускает обновленный пользовательский интерфейс ChatGPT в Интернете с новым, "более диалоговым" главным экраном и макетом сообщений, а также настольную версию ChatGPT для macOS, которая позволяет пользователям задавать вопросы с помощью сочетания клавиш или отвечать на вопросы. обсудить скриншоты. Пользователи ChatGPT Plus сначала получат доступ к приложению, начиная с сегодняшнего дня, а версия для Windows появится позже в этом году.
В другом месте GPT Store , библиотека OpenAI и инструменты создания сторонних чат-ботов, построенных на ее моделях искусственного интеллекта, теперь доступны пользователям бесплатного уровня ChatGPT. А бесплатные пользователи могут воспользоваться преимуществами функций ChatGPT, которые раньше были платными, например, памятью , которая позволяет ChatGPT "запоминать" предпочтения для будущих взаимодействий, загружать файлы и фотографии, а также искать в Интернете ответы на актуальные вопросы.