Изображение, созданное с помощью Image Creator от Microsoft Designer.

Apple в сотрудничестве с исследователями из Калифорнийского университета выпустила собственную модель редактирования изображений на основе искусственного интеллекта, которую может попробовать каждый.

Модель получила название «MGIE», что означает MLLM-Guided Image Editing и позволяет пользователям редактировать изображения на основе инструкций на естественном языке. Он использует мультимодальные модели большого языка (MLLM), которые объединяют различные типы информации, такие как текст, фотографии и видео, для понимания и создания человеческого языка.

Хотя исследования MLLM показали многообещающие результаты в понимании и создании изображений, они еще не получили широкого распространения.

MGIE был представлен в документе на Международной конференции по обучению представлений 2024. В документе показано, как MGIE может улучшить автоматические показатели и человеческую оценку, сохраняя при этом эффективность конкурентного вывода.

MGIE использует MLLM для получения выразительных инструкций на основе пользовательского ввода. Venture Beat предлагает пример: пользователь может сказать MGIE «сделать небо более синим», и MGIE интерпретирует это как «увеличить насыщенность области неба на 20 %».

Как MGIE интерпретирует естественный язык

Как MGIE интерпретирует естественный язык | Изображение предоставлено: Apple, Калифорнийский университет в Санта-Барбаре.

Затем, как только инструкции получены из ввода на естественном языке, он генерирует отредактированную версию изображения. Его можно использовать для создания широкого спектра правок: от настройки цвета до создания или удаления частей изображения.

MGIE имеет открытый исходный код и доступен на GitHub, чтобы каждый мог попробовать. Страница GitHub позволяет пользователям получать код, данные и предварительно обученные модели.

Скорость создания изображения будет существенно различаться в зависимости от производительности оборудования. Кроме того, такие модели невероятно требовательны к оперативной памяти.

Apple уже некоторое время за кулисами работает над своими функциями с использованием искусственного интеллекта. В январе код бета-версии iOS 17.4 предположил, что Apple работает над новой версией Siri на базе искусственного интеллекта.

Акции Apple в последнее время сильно упали, отчасти потому, что аналитики громко заявили, что компания отстает от Meta, Google и Microsoft во внедрении генеративного искусственного интеллекта. Непонятно, почему это не было проблемой, если она впервые возникла не с мобильным телефоном, планшетом, умными часами или гарнитурой виртуальной реальности, а с генеративным искусственным интеллектом.

Возможно, чтобы разубедить этих аналитиков, генеральный директор Apple Тим Кук недавно заявил, что Apple тратит «огромное количество времени и усилий» на функции искусственного интеллекта, о которых будет объявлено в ближайшие месяцы. Он также отметил, что Apple внутри компании работает над генеративным искусственным интеллектом.

Apple работает над моделями редактирования изображений на основе искусственного интеллекта

©