Сделать хотел грозу, а получил козу – примерно так можно описать попытки взаимодействия многих людей с новыми моделями генеративного ИИ. Как выяснилось, создание запросов ИИ, приводящих к нужным результатам, – это своего рода мастерство. И если рассматривать генеративные модели не как угрозу своему профессиональному существованию, а как инструмент, расширяющий возможности, это мастерство может оказаться в недалеком будущем весьма востребованным. О том, из чего оно состоит, размышляет в своей статье «» колумнист The Atlantic Чарли Ворцел.
Ошеломляющий успех генеративных моделей ИИ от OpenAI не только подстегнул техногигантов быстрее предъявить публике собственные проекты, но даже породил и некую, полную энтузиазма протоверу в то, что генеративный ИИ пересоздаст и все технологии, и весь мир. И хотя, считает автор, в данный момент трудно отделить искренний энтузиазм от ажиотажа, но с учетом вложенных в технологию миллиардов, стоит задаться вопросом – как будет выглядеть мир, если ее адепты окажутся правы? Его ответ: «Если произойдет этот сдвиг парадигмы ИИ, одним из жизненно важных навыков XXI века может стать эффективное общение с машинами».
Сегодня это общение для большинства людей выглядит как написание запроса для языковых и визуальных моделей генеративного ИИ. Казалось бы, всё просто – нужно облечь свое желание в слова. Но вот здесь и возникает проблема, потому что нужна конкретика. Причем конкретика, основанная на знании.
Скажем, для языковых моделей, если речь идет о сколько-нибудь художественном задании, это знание авторов, произведений, литературных течений и прочего (и желательно, не в назывном порядке). Так, по словам Ворцела, попросив ChatGPT написать несколько абзацев о скотном дворе, можно получить нечто незапоминающееся и маловразумительное. А если сослаться на «Скотный двор» Оруэлла, да еще добавив к этому его эссе «Почему я пишу», результат окажется уже гораздо интереснее и убедительнее.
Если же речь идет о каком-либо интеллектуально-исследовательском задании, то совершенно необходимо знать предмет. Так, Ворцел приводит слова Дэна Шиппера, предпринимателя и писателя, использующего ChatGPT для своих статей в блоге и сравнивающего его с «сообразительным и энергичным младшим сотрудником», который «полон энтузиазма и владеет навыками, но также неопытен и, следовательно, с большей вероятностью будет совершать незаметные, но существенные ошибки».
Например, для поста о криптовалютном антигерое Сэме Бэнкмане-Фриде, ярком представителе эффективных альтруистов, которые руководствуются, в том числе, философскими идеями утилитаризма, Шиппер предложил чат-боту описать основные моменты движения. Затем он проверял полученный текст на точность и украшал «собственными риторическими вензелями». Причем Шиппер подчеркивает, что такая практика возможна только в том случае, «если я знаю, о чем говорю, чтобы я мог написать хороший запрос, а затем проверить результат». И «результат будет тем лучше, чем больше будет работы над запросом».
Для визуальных моделей в свою очередь важно знание не только имен художников с их индивидуальными стилями, но и инструментов дизайна, иллюстрации и фотографии. При этом, по словам Ворцела, вознаграждаются более глубокие технические знания.
Одно из поразивших его изображений, сгенерированных с помощью Midjourney, содержало крайне подробный запрос. В нем, помимо элементов картины (восход солнца, отражающийся в затененном ивами пруду) и ее тональности (мрачные, сильные эмоции), задавался характер изображения (глубокая перспектива, естественное освещение, гипердетализация, сверхвысокий контраст и пр.) и инструменты (в данном случае это были программы цифровой анимации, создающие трехмерную компьютерную графику).
«Хорошие запросы больше, чем просто конкретика, они склонны показывать осведомленность о возможностях среды, которую пользователь пытается воспроизвести, – говорит Ворцел. – Некоторые из лучших фотореалистичных запросов просят модель имитировать определенный тип камеры или объектива, другие демонстрируют практические знания истории искусства или определенного художественного стиля».
Однако и этого недостаточно. Необходимо, отмечает автор, более глубоко понимать используемую модель, выясняя, какую информацию из запроса извлекает ИИ, как организует и индексирует информацию, которая есть в его распоряжении. И соответственно, как и в каком порядке организовать собственные знания в запросе.
По наблюдениям писательницы Мэг Конли, страдающей от афантазии (неспособности произвольно вообразить какую-либо картину) и занимающейся с визуальными моделями, у каждого инструмента есть своя эстетика и свой «диалект», а также своя значимость слов в запросе. «В Midjourney, если вы наберете слово “девушка” перед прилагательным “рыжая”, внимание будет акцентировано на первом слове больше, чем на втором, – рассказала она Ворцелу. – С более длинными запросами это похоже на головоломку, и вы учитесь понимать, каким определениям придавать большее значение».
Лучший способ решить эту головоломку, чтобы добиться от модели желаемого результата, – итерация, или метод проб и ошибок. Один из респондентов Ворцела, успешно монетизирующий свое умение составлять запросы для визуальных моделей, отметил, что хороший запрос «дает стабильные и предсказуемые результаты, и вы добиваетесь этого тогда, когда генерируете много изображений и видите варианты, возникающие при изменении некоторых слов или параметров».
По словам профессора Пенсильванского университета Итана Моллика, его студентам может в карьере понадобиться это умение создавать хорошие запросы, суть которого находится «где-то между лингвистикой и решением задач». «Я думаю, хорошие запросы, скорее всего, это вознаграждение для людей с дивергентным мышлением, быстро находящих способы для эксперимента, – сказал он Ворцелу. – Думаю, это вознаграждение для людей с глубоким любопытством».
Кроме того, считает автор, запросы вообще могут быть интереснее, чем тексты или изображения, генерируемые ИИ, потому что многократные попытки воплотить желаемое через модификацию запроса многое могут рассказать о человеке: «Это слегка похоже на доступ в его мозг, полученный, чтобы посмотреть, как он собирает воедино разрозненные кусочки знаний, как решает задачу, как использует свой творческий потенциал для создания чего-то неожиданного».
И хотя, по мнению Моллика, творчество при создании запроса, возможно, это временная форма общения с генеративным ИИ. Так же, как и поисковые системы в начале своего существования требовали от людей знаний и изобретательности, а потом их развитие привело к тому, что для получения отличных результатов стало достаточно совсем примитивного запроса.
И намеки на это уже есть – вроде находящейся в тестовом режиме модели GPT-4 от OpenAI, о которой говорят, как о чем-то совершенно фантастическом, или недавно представленного интерфейса Microsoft, у которого, например, вместо отдельных параметров конкретной модели автомобиля и дивана можно просто спросить, поместится ли этот диван в этот автомобиль, если, допустим, откинуть кресла.
Но пока парадигма не изменилась, создание запросов, считает Ворцел, это эмерджентная форма мышления, подобно появившимся до него сочинительству и программированию, которая находится где-то между диалогом и вопрошанием, между программированием и прозой: «Это та часть быстро меняющегося, неопределенного будущего, которая ощущается отчетливо человеческой».
Сообщение появились сначала на .