На недавней презентации OpenAI компания представила новинки и обновления для существующих продуктов. Основным событием стало анонсирование новой языковой модели GPT-4o ChatGPT. Доступ к ней открыт как для бесплатных, так и для платных пользователей. Платная версия предлагает более высокую скорость работы.

Модель GPT-4o способна анализировать и создавать звук, изображения и текст в реальном времени, при этом она стала лучше понимать голосовые интонации. Во всех проведенных тестах модель демонстрирует лучшие результаты, опережая своего основного конкурента, Google Gemini.

Развертывание GPT-4o начнется сегодня и будет происходить поэтапно.

Какие функции есть у GPT-4o?

На YouTube-канале OpenAI появились примеры использования GPT-4o в повседневной жизни:

— Модель объясняет школьнику, как решать задачу по математике. Не решает сама, а именно объясняет как решить!

— Выступает в роли языкового носителя, помогая выучить испанский язык;

— Рассказывает слепому человеку, что находится в его окружении;

— Легко переводит диалог на разных языках так, чтобы он был понятен обоим участникам;



— Подготовит к собеседованию на интересующую вас вакансию;

— Может участвовать в созвоне как полноценный участник.

Эти функции будут доступны всем пользователям.

Как работает GPT-4o?

Иван Оселедец, генеральный директор Института AIRI и профессор Сколтеха рассказал «Хайтеку» об особенностях работы обновленной языковой модели.

Особенно его заинтересовали продуктовые решения. Также Иван Оселедец отметил быстрое написание кода с помощью GPT-4o. В целом, инференс (непрерывная работа нейросети на конечном устройстве) модели ускорился. Появилась функция синтеза речи, имитации эмпатии и уточняющих вопросов. Вместо моментальных ответов на запрос пользователя бот будет уточнять требования более детально. По задумке это должно улучшить качество ответов. Модель будет доступна бесплатно, а также появится возможность подключения через API и десктопное приложение.

Однако профессор Сколтеха отметил, что по отдельности новые фишки «не настолько впечатляющие» — каждая из них реализуется различными компаниями и стартапами со всего мира. «Например, синтез речи от SunoAI звучит намного более естественно, а показанные примеры анализа видео можно решать с помощью анализа отдельных ключевых кадров в потоке, что снижает вычислительную сложность и не требует подробного анализа временной связности кадров», — добавил профессор Сколтеха.

Однако еще ни у кого не получилось хорошо «уместить» их все в одну модель. Именно это наиболее важное обновление связано с мультмодальностью. GPT4o — «омни» модель, натренированная на нескольких форматах данных одновременно. Ничего принципиально невозможного показано не было, но работа очень качественная и свидетельствует о том, что OpenAI старается держать марку лидеров отрасли, заключает эксперт.

Читать далее:

Оказалось, в прошлом Марс был больше похож на Землю, чем все думали

Сибирские «врата в подземный мир» растут: что происходит в Батагайке

Недалеко от нас есть планета, где ветер дует быстрее пули

The post Обновленная GPT4o: чем она отличается от остальных, какие функции и как работает appeared first on Хайтек.

©