Большие данные давно стали неотъемлемой частью маркетинга, но они до сих пор окружены мифами. Может ли внедрение big data поднять продажи или компаниям лучше полагаться на свои коммерческие отделы, действительно ли сегодня маркетологи знают о своих потребителях все и заменит ли рекламистов и работников медиаиндустрии искусственный интеллект — об этом в новом выпуске “Медиасреды” с Сергеем Мариным.


Юрий Синодов: Здравствуйте, дорогие слушатели! В эфире подкаст “Медиасреда”, который делают совместно издание Adindex.ru и обменная сеть новостей Smi2.ru. Сегодня у нас в гостях Сергей Марин, основатель компании “Студия Данных”, специализирующейся на решениях на базе искусственного интеллекта.


Аудиоверсию можно послушать прямо сейчас на сайте Adindex.ru, в сообществе Adindex.ru в VK, на SoundCloud, на Яндекс.Музыке, в подкастах Apple, в подкастах Google, на Spotify, на Castbox, а видео — посмотреть на YouTube.


Сергей Марин: Здравствуйте!

Мария Георгиевская: Здравствуйте, Сергей! Ведущие подкаста, как и всегда, — Юрий Синодов, директор по развитию Smi2.ru и главред сайта Roem.ru и я, Маша Георгиевская, новостной редактор AdIndex. Я расскажу коротко сейчас, для тех, кто не знает и не встречался с нашим подкастом: в нашей студии мы встречаемся с представителями медиа и онлайн-площадок и обсуждаем нынешнюю медиареальность (сейчас тем более есть, что обсудить), куда всё это идёт. Данный выпуск мы записываем сидя дома, к чему и вас призываем.

Синодов: Сергей, вы сейчас представляетесь как основатель и директор “Студии Данных” и “Школы Данных”, я прав?

Марин: Да, всё верно.

Синодов: Надо пояснить читатетлям, что ещё вы делали. Мы собрали небольшую биографическую справку: вы успели поработать управляющим директором по монетизации данных и новым направлениям бизнеса в банке “Открытие”, до того — создали и возглавляли службу разработки продуктов big data компании “Вымпелком”, были руководителем направлений Business Intelligence и Data mining в компании Adidas, возглавляли бизнес-аналитику в голландской телекоммуникационной компании “KPN”. Ничего важного не забыл, чтобы был понятен контекст, в котором мы разговариваем?

Марин: Я смотрю, вы хорошо подготовились.

Сергей Марин в Медиасреде

Синодов: Стараемся. Маша?

Георгиевская: После того, как мы озвучили вашу биографию, никого не удивит, что именно о больших данных мы сегодня будем говорить и об их практическом применении в бизнесе, медиа, рекламе. Но первый вопрос мы, конечно, зададим на самую животрепещущую тему — это коронавирус. Много о нём говорить не будем, мне кажется, все уже подустали от этой темы, и всё же. Сейчас есть ощущение, что, поскольку весь мир сел на карантин, и наши активности перемещаются в онлайн, на рынок хлынет большой поток данных, и интересно, какие это открывает возможности для рынка рекламы, медиа, которых раньше у нас не было? Что мы можем узнать в первую очередь? Что со всем этим делать, Сергей?

Марин: Сначала, наверное, расскажу не про рынок рекламы и медиа, а про то, что этот кризис покажет, насколько мы в принципе готовы использовать новые технологии, потому что мы много о них говорили все, мы их частично использовали, но сейчас, когда всё это случилось, мы смотрим как страны реагируют. Мы видим, что, например, многие страны до сих пор используют классические методы прогнозирования распространения эпидемии; если мы посмотрим на то, как это прогнозируется, то у нас есть некоторые ключевые метрики: среднее количество контактов, которое есть у человека в течение периода, когда он может заражать; вероятность заражения в случае контакта (таким образом рассчитывается т.н. показатель, который говорит о том, сколько человек, в среднем, может заразить болеющий человек); также статистически оценивается, сколько человек приезжает из заграницы, сколько едет на дачу и т.д. При этом у нас есть огромный массив данных — например, те же самые данные сотовых операторов, которые позволяют нам делать всё это проще и быстрее. Совершенно точно можно мерить, сколько людей приехало из заграницы, насколько уменьшилось количество контактов, если мы ввели какие-то заградительные меры, можно оценивать, насколько хорошо люди сблюдают карантин, — на самом деле, вот технология, которая уже готова. Я был рад услышать, что всё-таки на прошлой неделе об этом хотя бы заговорили, хотя прошло уже много времени. Заговорили об этом в Москве, но, в принципе, такое есть у всех, конечно, и операторы по всему миру делали такие задачи как геоаналитика для государства, но для других целей естественно (проектирование транспортных потоков и т.д.). Это пример технологии, которую можно использовать. Другой пример — распознавание рентгеновских снимков; есть большая поляна, где люди уже давно занимаются тем, что с помощью искусственного интеллекта распознают разные болезни, в частности — пневмонию, то есть это одна из хорошо решённых задач, и вот сейчас опять об этом заговорили, “давайте использовать AI для этого”. Это касательно технологии. Касательно того, что хлынут данные: данные сами по себе — не супер-большая ценность, умение их использовать — да, ценность. Если мы говорим, что мы узнаем больше о людях, то мы больше узнаем об их предпочтениях, наверное: о том, что они заказывают и т.д., сможем на это лучше реагировать. Здесь, надеюсь, в компаниях произойдёт другой shift — не то, что данных станет больше, а то, что они (компании) поймут,что данные для них — ключевое. Например, многие компании, которые занимаются онлайн-продажами, традиционные, особенно — офлайн-бизнесы, они не умеют делать такие вещи как A/B-тестирование. Что это значит? Я продаю некий продукт и хочу быстро посмотреть, как на него реагируют покупатели. “Быстро” это значит в течение одного дня или нескольких минут. Вот этих данных станрвится всё больше, они становятся более доступными, но это изменение некоторого mindset’а по их использованию. Я вижу, что вот это произойдёт, чем мы обогатимся кучей данных и сразу получим какие-то insight’ы.

Синодов: Это произойдёт из-за того, что они меняют вообще модель бизнеса в сторону доставки? Им это A/B-тестирование для чего нужно?

Марин: Представим себе какого-нибудь классического ритейлера, у которого основа бизнеса — магазины. Основной траффик идёт — магазины, и за счёт этого он существует. Он, конечно же, имеет некоторое онлайн-присутствие, т.е. некий сайт, через который есть определённый объём продаж, не основной, но всё же. Теперь этот ритейлер запускает какую-то акцию — как быстро он может оценить эффект от этой акции? Практика показывает, что оценить этот эффект они умеют очень плохо и медленно, потому что офлайн для этого не очень заточен, а к онлайну они не привыкли (потому что традицонно офлайновые).

Синодов: Точнее, у них большая доля офлайна просто, и они всё ещё смотрят на доставку как на бедного ребёнка (по крайней мере, два месяца назад так было).

Марин: Это не только доля, это весь менталитет, это культура работы с цифрами, т.е. в некоторых компаниях можно спросить: “Ребята, почему вы запускаете это промо?”, и вам ответят: “На основе моего личного опыта”. Понимаете, да?

Синодов: Да, понятно.

Марин: Теперь у нас всё переходит в онлайн. С одной стороны, в онлайне всё очень быстро меняется, с другой — в онлайне есть игроки, которые умеют быстро работать с данными (они там уже есть, поскольку они из этого росли), и с ними придётся конкурировать, и для эффективной конкуренции придётся уметь быстро обрабатывать результаты того, что происходит. Это не только изменение, к сожалению, мозгов, это ещё и сильное изменение систем, потому что там и прозрачная аналитика, и связи сайта с BI-системами, с отчетами, с планированием акций, — это всё достаточно сложные процессы, думаю, они начнут более интенсивно происходить.

Синодов: Можно задам карьерный вопрос? Вы раньше работали в “Билайне”, в “Открытии”, сейчас вы сделали независимыю компанию, и у меня возникает вопрос: где вы эти данные будете брать? Я, честно говоря, не знаю, насколько тот же “Билайн” и уж, тем более, банк готовы все эти данные отдавать для внешнего использования, и с этой точки зрения ваш выход из этих корпораций оправдал себя? Вы можете сейчас этими данными оперировать? У вас это получается?

Марин: Мы оперируем исключительно чужими данными, потому что мы работаем как консалтинг, т.е. мы решаем задачи для тех самых компаний, которые вы перечислили. Мы не работаем сейчас с сотовыми операторами и банками, но мы работаем много с транспортом, логистикой, фитнесом, медициной, производством, то есть там, где необходимы решения, которые основываются на аналитике данных. Мы делаем продукты для наших заказчиков, используя их данные.

Синодов: Можно конкретнее, какие данные они используют и откуда они их берут? Если они используют данные операторов, они их как добывают? Покупают или…?

Марин: Нет, нет. Я знаю кейсы, но о них не совсем правильно говорить. Когда я говорил про данные операторов для задач управления пандемией, государство может их получить, здесь проблем нет; если мы говорим о предоставлении сторонней компании, чтобы она предоставляла это как сервис, это невозможно. Наверное, возможно, но я о таком не слышал. Если такие вещи делаются сторонней компанией, то по заказу оператора — никаким другим образом. Отвечая на ваш вопрос, какие данные мы используем по факту: если мы говорим о продажах, то на основе исторической информации по продажам (например, у офлайн-ритейлера) мы строим модели и прогнозируем продажи каких-то продуктов или эффективность акций; если мы работаем с транспортной логистикой, то, например, для одного из клиентов мы прогнозируем время в пути железнодорожных вагонов на основе исторических данных по движению между станциями (мы одними из первых построили такую “яндекс.карту”, только на железнодорожных путях). Как-то так.

https://roem.ru/22-06-2018/272074/kak-delat-ml/

Синодов: Прикольно. А как это использовать потом в коммерческих приложениях? Они (клиненты) посмотрели и поняли что?

Марин: Нет, не “поняли что”. Вот это важно про машинное обучение: оно не для инсайтов. Инсайты, конечно, тоже важны, но обычно это для того, чтобы в реальном времени что-то делать. Какую задачу они решают? Объясню на примере железнодорожного транспорат. На железных дорогах обычно есть какой-то ключевой продукт, который они перевозят, за счёт этого они и существуют. В основном, это либо уголь, либо нефть. Ещё контейнеры, но это отдельная тема, и у нас нет клиентов с контейнерами.

Синодов: Плюс к этому строительные материалы, металлопрокат, цемент.

Марин: Основной продукт, если не брать контейнеры, это либо уголь, либо нефть. Работает это так: добывается уголь, он везётся в порты, а на обратном пути перевозится всё остальное, что вы упомянули. Это как таксист, который берёт заказ из центра, ищет попутки, чтобы обратно доехать.

Синодов: Чтобы не было так называемых empty legs, пустых пробегов.

Марин: Да. Поэтому решение, которое надо принять в любой заданной точке, это нужно ли ехать обратно и грузить уголь, потому что нужно обеспечить определённо количество вагонов там, либо можно взять попутку. Вот для планирования этого и нужны прогнозы, т.е. нужно знать примерно, сколько по времени будет ехать вагон. Это одна из задач.

Синодов: Искусственный интеллект это решает?

Марин: Он просто прогнозирует. Если раньше человек прогнозировал в Excel’е на коленке,..

Синодов: “Чуйкой”!

Марин: …то здесь это автоматизировано.

Синодов: Вопрос: старая классическая “чуйка” работает хуже, чем прогнозирование при помощи AI?

Марин: Совершенно правильный вопрос, и на него есть два ответа. Первый: да, она работает хуже. Работает ли она сильно хуже? Ну, если на больших масштабах, то сильно, если на маленьких — несколько процентных пунктов, не то, чтобы сильно хуже. Проблема в том, что “чуйка” работает следующим образом: если у вас парк порядка ста тысяч вагонов, и вы каждый из них прогнозируете с помощью “чуйки”, то их уже слишком много; их, вагоны, распределяют по большому количеству людей, каждый из которых прогнозирует свой кусочек, но их всё равно слишком много. И вот здесь, если заменить огромную армию людей машиной, эффект достигается огромный.

Синодов: Понятно. Маша?

Георгиевская: Если вернуться дли читателей, которые не совсем понимают историю со сбором данных. Например, я — абонент “Билайн”, какие данные обо мне могут собрать и какие выводы обо мне, как о пользователе, можно будет сделать? Потому что сейчас обыватель часто не понимает, что о нём знают, ходит и пугается.

Марин: Давайте не привязываться конкретно к “Билайну”, возьмём любого произвольного оператора, так будет правильнее и честнее.

Георгиевская: Произвольный оператор, о’кей.

Синодов: А то могут вспомнить, что вы там работали, и обидеться (смеются).

Георгиевская: Я как абонент “Билайна” интересуюсь, между прочим.

Синодов: Отличный повод, о’кей.

Марин: Некоторый оператор N. У всех операторов всё примерно одно и то же, поэтому не будет сильных отличий. Смотрите, есть профиль ваших звонков (их называют транзакциями), т.е. когда вы звонили, кому звонили, сколько звонили, откуда звонили и т.д. На базе этого можно строить прогнозы (особенно по профилю звонков) на тему того, какой тариф вам лучше предложить, например — это одна часть задачи для up-sale/cross-sale. На базе этих данных также прогнозируется отток — это другая большая задача у операторов, поскольку никто никогда не извещает, что отключается от услуг. Это же не фитнес-клуб, где абонемент заканчивается.

Синодов: Насколько я знаю, в фитнес-клубах отток происходит в момент покупки абонемента у большей части пользователей (смеются).

Марин: На самом деле, одна из фитнес-сетей в России, по-моему, самая крупная, тоже наш клиент, поэтому можно об этом поговорить, там даже есть открытый кейс, так что можете задавать вопросы на эту тему.

Георгиевская: А вот после операторо и расскажите о них.

Марин: Отток — это большая проблема, ведь никто не предупреждает, что уйдёт, а клиентов хочется удерживать. Если клиент уже ушёл, то он часто меняет номер, и потом его просто не достать, потому что новый номер неизвестен. Поэтому нужно заранее спрогнозировать, чтобы можно было позвонить и что-нибудь предложить или просто поговорить, попытаться удержать. Поэтому отток — большая тема. В машинном обучении вообще нет жёстких предикторов, вы меня спросите: “Что спрогнозирует отток клиента?” — нет такого одного параметра, их много, но смотрят обычно на количество звонков, частоту звонков, средняя продолжительность звонка, средняя продолжительность между звонками. Но это смотрит не человек (параметров более ста), смотрит машина, т.е. обучается модель на исторических данных тех, кто реально ушёл, и дальше она уже прогнозирует новый отток. Третья большая тема у операторов — геоаналитика (по расположению клиентов, где они находятся). Для самого оператора это нужно , чтобы планировать, где располагать свои базовые станции, например, с точки щрения потребления, для государства это нужно для планирования транспортных потоков и т.д., то есть сколько людей находится в разных районах, сколько между ними перемещается и т.п.

Георгиевская: И сейчас это очень актуально.

Марин: Да, да. Сейчас актуален тот индекс, который в теории эпидемии считается вручную, немного — статистически; операторы могут посчитать этот индекс достаточно точно. Конечно, там будет определенная погрешность, но динамику можно смотреть очень хорошо, и с точки зрения геоаналитики, и с точки зрения контактов. В геоаналитике возникает много косвенных задач, например, банковский скоринг, когда используются данные операторов, чтобы прогнозировать дефолт клиента (так же строится модель, обучается на данных и используется). Как-то так, если говорить про операторов сотовой связи. Но основные данные это звонки (также смс, выходы в Интернет и т.д.) и геолокация.

Георгиевская: Что за интересный кейс про фитнес-центры вы хотели рассказать? У них какая-то своя специфика есть?

Марин: У фитнес-центров действительно есть специфика — у них специфическая тема с оттоком и пролонгацией. Можно очень просто узнать, что у клиента заканчивается абонемент (есть дата, и можно, условно, за месяц до этого ему звонить и предлагать скидку и т.д.). Зачем нужна модель оттока для фитнес-клубов? Для того, чтобы понимать кому предлагать скидку, а кому — нет; нужно прогнозировать вероятность оттока с точки зрения предложения скидки. Интересный инсайт в том, что вероятность оттока зависит, прежде всего, от вовлечённости, что, наверное, логично: если человек ходит в клуб, то он и будет ходить, а, если он не ходит, то он и не продлит. Всё очень просто. Поэтому основые методы мотивирования на продление в индустрии фитнес-клубов — вовлечение в жизнь клуба, т.е. предлагаются персональные тренировки, часто — бесплатные (по крайней мере, первые), предлагаются услуги спа и т.д. Чем больше вовлечённость, тем больше вероятность того, что человек продлит свой абонемент. Как-то так.

Георгиевская: Если говорить о рекламе, это сейчас сфера, в которой в космических масштабах растёт сбор данных (по крайней мере, мне так кажется как отраслевому журналисту), и хочется уточнить некоторые моменты. Сейчас в обществе есть некоторая напряжённость, так как мы видим таргетированную рекламу и думаем: “О, господи! О нас так много знают!”. С этической точки зрения где заканчивается сбор данных и начинается посягательство на приватную территорию человека?

Марин: Как ни странно, меня это меньше всего беспокоит при том, что я достаточно хорошо во всё это погружен. Немного предыстории. Реклама долгое время основывалдась на простых сегментах: пол, возраст, доход, может быть, какие-то ключевые категории (молодые мамы, например) — т.е какие-то базовые вещи, которые достаточно легко вычисляются. Потом пришла big data и условно сказала: “А давайте мы будем считать, нарезать много мелких сегментов!”. Это назвали programmatic, алгоритмические закупки. Весь принцип не только на этом основан, но в основе — узкоесегментирование. И вот узкие сегменты не взлетели. Почему? Потому что, пока мы говорим в общем (типа “мальчик/девочка”), нам всё понятно, а если нам нужно спрогнозировать, что у человека, к примеру, есть домашнее животное, и это домашнее животное — собака, и эта собака ещё щенок и т.д., у нас начинаются проблемы. Проблемы начались тогда, когда все пообещали, что так хорошо всё сделают, а на деле не получилось. Поэтому фишка не в точности микросегментов (у человека есть домашнее животное, и я понял это на основе данных), а в том, чтобы нарезать сегменты так, чтобы они не пересекались, потому что тогда (возвращаемся к первой теме, A/B-тестирование) можно пробовать, какие кампании на что работают, и вот это важнее: то, что я продал корм для животных, а не то, что у покупателя есть собака. Этой способности сейчас все более-менее учатся, и это реально даёт возможности работать с машинным обучением, потому что машинное обучение не про то, что я узнал, что у человека есть собака, а про то, что у меня есть предикторы, которые говорят, кому предложить корм для животных. Мне кажется, сами данные имеют ценность, но как бы не скатиться к тому, что получилось с programmatic (на основе данных постарались построить все сегменты, а потом получалось так: “Вот мы выделили сегмент тех, у кого есть, с нашей точки зрения, щенки, и будем продавать им специфический корм для щенков, но им не продаётся; тогда давайте возьмём другой сегмент, ему продаётся, а этот сегмент — это мужчины старше сорока, интересующиеся автомобилями. А какая разница? Раз им продаётся, то давайте им продавать”). Где граница? Наверное, персонализация — это граница; не должно быть возможности восстановить обратно, кто этот человек, это важно. Ему можно что угодно предлагать, он может это блокировать или нет, но мы не должны уметь сделать, что это Иванов Иван Иванович. Это одно из важнейших условий. И второе — чтобы человек мог контролировать, какую информацию он о себе отдаёт, но это достаточно сложно реализовать, учитывая строение всей инфраструктуры интернета. Допустим, если посмотреть на европейское законодательство: обязаны оповещать, что собираются cookie. Хорошо, оповещают, а для чего они собираются? Кто их трэкает? По факту человек не знает, что он заходит на сайт, а пока он туда идёт, он сходил на пятнадцать других сайтов, где ему положили cookie и к какому-то сегменту его отнесли, он об этом не знает. То, что человек предупрежден об использовании cookie, ничего не меняет, потому что он не знает, где эти данные по факту остались.

Георгиевская: Вы в прошлом интервью для Adindex примерно четыре года назад рассказывали, что скоро big data сделает рекламу такой же, как в фильме “Особое мнение” (Minority Report, 2002. реж. Стивен Спилберг), и привели в пример сцену, где система распознавания лиц вычислила конкретно, что за человек перед ней, и показала ему персонализированную рекламу. Тогда вы говорили, что на тот момент законодательство и люди не были готовы к такому развитию событий. Насколько мы сейчас к этому приблизились, с учётом того, что сам Google призывает к тому, чтобы прекращать распознавать лица, так как это всё идёт не туда. Насколько сы близки к этому сценарию или его вообще никогда не будет?

Марин: Технологически или морально, не совсем понимаю?

Георгиевская: Технологически и морально, в целом.

Синодов: Давайте всё.

Марин: Технологически мы уже там. То, что четыре года назад мне казалось каким-то технологическим будущим, сейчас уже настоящее. И то, что говорят власти Москвы, что можно будет отслеживать человека по лицу (конечно, не на всех камерах, качество камеры сильно влияет), — вообще без проблем. Для примера: нам нужно было написать систему для распознавания движения людей по торговому залу, и два студента написали её за буквально несколько дней, так как все библиотеки доступны, т.е. это очень просто.

Синодов: Движение в каком смысле?

Марин: Как люди движутся по торговому залу с точки зрения того, какие они покупают продукты. Как было в прошлом? Ритейлеры давно хотели отслеживать, как перемащаются люди по торговому залу: куда они идут сначала, куда идут потом (для мерчандайзинга).

Синодов: Тепловую карту создавать?

Марин: Да. Скорее customer journey, только в физическом смысле, правильнее так сказать. И о чём думали? Думали о wi-fi снифферах, думали о bluetooth-маркерах (технология называется iBeacon), были какие-то изощрения, чтобы это сделать, а теперь неожиданно всё это оказалось не нужно, потому что вешаешь несколько камер, и всё у тебя есть. С точки зрения технологии поставить, условно говоря, рекламныq щит где-нибудь цетре Москвы, на котором отображается что-то, когда мимо проходит человек, это вообще легко. Проблема будет не в том, чтобы распознать человека, а в том, что ему показать, потому что контент будет не всегда персонализированным. Возвращаемся к основной проблеме: мы не умеем делать масштабное A/B-тестирование; пока мы не умеем понять, кому что предлагать, предложение будет, но не обязательно будет персонализированным, и в конечном счёте оно скатится к базовому, на основе пола, возраста и т.д. С точки зрения физической готовности, мне кажется, люди испугаются. Странно, что они не пугаются, когда им государство говорит, что оно будет распознавапнием лиц заниматься.

Георгиевская: Сейчас немного другого боится человек.

Синодов: У меня вообще есть мнение, что людям в целом наплевать на собственную приватность, лишь бы было удобненько и дёшево.

Марин: Может быть, не знаю. Про распознавание лиц: тендер, который правительство Москвы провело в декабре или в ноябре прошлого года, т.е. задолго до всего этого, и это масштабная система наблюдения.

Синодов: Это то, что сейчас в метро ставится, и со всех камер информация анализируется?

Марин: Да. Похоже, всем всё равно. Пока люди этого не замечают, но, если поставить рекламный щит, то люди, может быть, расстроятся, не знаю.

Синодов: А сейчас будут считать, что даже полезно. Повезло, редкий случай (смеются).

Марин: Может быть, не знаю.

Синодов: Я уточню, как я вижу путь всех этих технологий (big data и т.д.), который приходят к нам в ритейл: все хотят заработать денег, естественно, или потратить меньше денег и обеспечить большую чистую прибыль. Приводит это к следующему: сначала одни ребята поставили у себя big data на камеры, на refID, на что угодно, потом другие посмотрели и поставили big data. При этом, вообще-то, у нас есть мощный ограничительный фактор — доходы самого населения, и мы, изначально полагаясь на эти доходы, продавали им капусту, пирожки, хлеб, булочки (чем мы там торгуем в магазине) не очень эффективно, а сейчас мы ещё начали тратить на big data, на камеры, на data scientist’ов в штате, на консультантов, при чём тратить начал абсолютно весь рынок, и в итоге на кошелёк пользователя теперь претендуют не только ритейлеры, но и всякие внешние силы (консультанты, например) и IT-специалисты. Точно ли мы в итоге получим больше денег, потому что мы, по сути, начинаем отдавать какую-то долю своего дохода за некие “мистические ритуалы”, которые якобы дадут нам рост продаж, а вы сами заметили, что далеко не все сумели в рост продаж, хотя big data и прочий machine learning внедрили?

Марин: Смотрите, явление, о котором вы говорите, в большей степени касается крупных компаний.

Синодов: Которые выбрали весь рынок.

Марин: Возможно. Ваше заявление работало бы следующим образом: если бы крупные компании были в среднем эффективны на 100%, и тут появилась big data, которая поставила бы эту эффективность под вопросом. Понимаете, о чём я говорю?

Синодов: Да.

Марин: Если мы говорим в целом, то расходы на консультантов в процентном соотношении от общего оборота это какая-то погрешность, как и расходы на big data, системы, вычислительные мощности и т.д.

Синодов: Это не значительные для них расходы?

Марин: В процентах — нет, вообще нет, т.е. это даже не заметно. Поэтому есть возможность для многих экспериментировать, и для многих это по-прежнему эксперименты, особенно — раньше. Мы говорим про то, что есть технари (люди, которые понимают, для чего нужны данные и как с ними работать и т.д.), а есть бизнес (коммперсанты, маркетологи и т.д.) — люди, которые далеко не все это понимают, и им могут приносить эти решения, они могут, в принципе, их покупать, но не обязательно пользоваться, потому что они не привыкли так работать. Это изменение всех процессов, и оно происходит сейчас и происходит медленно. Мне тут один ритейлер задал вопрос, и я ему предложил чисто гипотетическую ситуацию; они говорят: “Мы хотим быть похожими на Amazon”, я говорю: “Круто. А, если бы у вас был выбор купить айтишников Amazon или их коммерсантов, вы бы кого купили?”.

Синодов: И что отвечают?

Марин: Разное отвечают. Мой ответ — коммерсанты, конечно.

Синодов: Почему?

Марин: Нужно купить коммерсантов, которые привыкли работать на основе данных, и они уже сделают так, как им нужно, привлекут айтишников, которые им всмё это выстроить.

Синодов: То есть айтишники здесь — некий черновой материал, которому, если правильно поставить задачу, он её выполнит на каком-то уровне, и это уже даст эффект?

Марин: Нет, тут просто важно знать, чего хотеть. Если идти снизу, как многие компании делают…Многие компании учредили у себя направления больших данных, и там есть люди, которые договариваются с бизнесом этих компаний на тему использования данных для чего-то. Это реально сложный процесс, потому что у бизнесов (сотрудников бизнес-направлений) есть свои основные задачи, которыми они занимаются, и тут им добавлют: “Давайте где-то оптимизируемся” и т.д. Этого не то, что не любят, но это дополнительная нагрузка. А если взять людей, которые уже привыкли так работать, они просто по-другому не мыслят, поэтому они скажут, как надо сделать, и им всё сделают. Поэтому в данном случае надо выбирать коммерсантов, а они уже под себя всё подстроят. Если взять наоборот, это будет сложный путь, и мы сейчас все идём “наоборот”.

Синодов: Возникает карго-культ? “Мы купили серверы, мы поставили камеры — где же рост прибыли?!”.

Марин: Не совсем так это работает, но действительно, бывает так: мы защищаем некий кейс, говорим, что заработаем столько-то. И вот только недавно наконец-то стали эти кейсы защищать с представителем от бизнеса, который это предложение коммитит, говорит: “да, я верю, что мы с помощью этого заработаем”, и вот только тогда покупаются серверы, нанимаются люди, и происходит реализация. Сейчас это последний тренд, но рашьне могли работать не совсем так.

Синодов: Сформулирую вопрос от обратного: что является гарантией неуспешности внедрения big data, AI, machine learning в оффлайновые бизнесы?

Марин: Первое, как я уже сказал, — если забудут сам бизнес.

Синодов: Если плохой коммерсант.

Марин: Нет, плохого коммерсанта не существует; если просто не привлекут коммерсанта на свою сторону. Можно сделать идеальное решение, которое говорит: “Ребята, если вы будете следовать вот этому чёрному ящику и планировать свой ассортимент на его основе, у вас выручка вырастет в 300 раз”, такое можно сделать. Но потом можно прийти к коммерсантам, и они скажут: “Ребята, вы что охренели?! Я тут уже 100 лет работаю, и такого никогда не будет, я буду работать как обычно”, и это не значит, что они плохие — просто им не “продали” эту идею, они её не купили. Поэтому раньше первой главной ошибкой многих проектов было то, что людей не привлекали; прежде, чем такое делать, нужно пойти и договориться, объяснить, почему это круто, коммерсанты скажут: “Да, круто! Да, мы с вами!”, и вот тогда имеет смысл делать, вместе с ними. Вот тогда “да”, а иначе никак. Иначе — сферический конь в вакууме, при чём какой бы хороший он не был в реальности. Это первое. Второе, если мы говорим про оффлайн-ритейлеры, это возможность собирать данные данные с “фронтов” (фронты — та область, где мы взаимодействуем с клиентом). Например, если я построил кому-то модель, которая прогнозирует продажи телевизоров, то я должен иметь возможность быстро померить как они продаются; если у меня такой возможности нет, то я могу не париться и моделей не строить. Соответственно, это второе. И третье — это оценка влияния моих действий на изменения бизнес-процессов (изменится процесс ассортиментного планирования, изменится процесс управления промо в магазине, изменится процесс оценки KPI для сотрудников и т.д.). Любая такая маленькая штучка — это большое изменение бизнес-процесса, и если я это недооценю, то это будет выглядеть так: я сделаю штуку, сходим на правление компании, отчитаемся на тему того, что всё очень круто, и на пилотном dataset’е, даже на пилотном магазине мы показали прирост продаж в 300 раз, а дальше всё умрёт, потому что дальше нужно долго и нудно управлять изменением процессов на всей сетке, а это дорого и долго, и нужны отдельные люди, которые это будут делать. Как вы заметили, нигде в моём списке “где можно обломаться” нет про данные, потому что, на самом деле, они в меньшей степени влияют. Данные всегда какие-нибудь есть; есть случаи (я приведу примеры), когда с данными плохо, но обычно они есть, и с ними можно работать, а те факторы, о которых я сказал, чаще всего и убивают проекты (а не данные). Когда реально важно, что данных нет и что с ними плохо, это на производстве. Популярная задача для производства — прогноз поломок определённого оборудования. У нас был кейс с авиацией; есть самолёт, и вам нужно спрогнозировать поломку определённых агрегатов, что бы заранее их “полечить”, а не в последний момент, потому что это всегда дороже.

Синодов: Понятно.

Марин: Всё, что у вас есть, — данные по этим агрегатам.

Синодов: Всё это протоколируется, история эксплуатации любого самолётного агрегата всегда ведётся в журнале.

Марин: Даже не в журнале, а в базах данных (в журнале было бы печально), и их можно взять, но чтобы построить модель нужны факты выхода из строя, а вот их нет.

Синодов: Почему?

Марин: Потому что есть замены, а какие именно замены (плановые замены, замены “просто так”, замены, потому что кто-то так решил и т.д.) непонятно.

Синодов: Для обеспечения надёжности и функционирования меняют заранее, и я подозреваю, что у производителей возникает искушение снижать срок эксплуатации с целью более частого обновления деталей.

Марин: Там есть регламенты, и в авиаиндустрии нельзя о них долго строить: если ты не следуешь предписаниям производителей, то всё плохо. Поэтому там всё соблюдается. Иногда самим авиаперевозчикам хочется менять пораньше. Здесь проблема в том, что в данных нет целевой переменной, и нельзя построить модель. На производстве то же самое: есть куча данных, но нет данных по тому, ломалось оно в реальности или просто заменили. Это show stopper. Но таких случаев мало.

https://roem.ru/10-10-2015/209844/small-data/

Синодов: Понятно. Маша?

Георгиевская: Я хочу сейчас поговорить о болезненной теме — медиа и big data. Есть ощущение, что для внедрения в работу больших данных нужно довольно серьёзное финансирование, которого у медиа сейчас, как правило, нет. Как раз интересно, действительно ли нужно быть сильно дофинанированной отраслью, скажем так, и могут ли сейчас медиа использовать как-то большие данные, чтобы отстаивать свою независимость от платформ, например, или мы уже всё профукали, и надо наслаждаться тем, что нам предоставляют Facebook (в редких случаях), Яндекс.Дзен (чуть-чуть почаще) и т.д.?

Марин: Уточните, под “медиа” что конкретно имеете в виду?

Георгиевская: Издание, СМИ, поговорим о СМИ.

Марин: С точки зрения стоимости: нет, это стоит недорого, потому что даже сервера необязательно закупать, их можно брать в облаке. Отстроиться от агрегаторов? Не знаю, это сложный вопрос. Вам даже виднее, чем мне, потому что я не знаю, какой процент трафика приходят сейчас на независимые СМИ от агрегаторов.

Синодов: Можно я конкретизирую вопрос, Маша? Что имеет смысл считать для СМИ и как это можно организовать?

Георгиевская: Да, что нам посчитать?

Синодов: Кроме очевидных посещаемости, аудитории, кликов, охваты у рекламодателей. Может быть, есть что-то неочевидное?

Марин: Я бы персонализировался — первое.

Синодов: Возьмём Adindex.

Марин: Вот я захожу на Adindex и вижу основную страницу, и кто-то другой заходит на Adindex и видит основную страницу. Внимание, вопрос: они совпадают или нет?

Георгиевская: Да.

Марин: Если они совпадают, значит, кое-что можно оптимизировать.

Синодов: Персонализировать контент?

Марин: Да. Это первое и очевидное, что может делать СМИ. Причём, персонализация даже не контента, а его выдачи и сортировки. Сам контент от этого меняется, мы просто меняем его сортировку. Персонализацией можно управлять не только на основной странице, а в зависимости от того, куда человек дальше кликает всё больше и больше тюнить контент. Это можно делать прямо в реальном времени. Полностью идентично работе рекомендательной системы в онлайн-ритейлерах. Можно управлять генерацией контента (для вас, Adindex, это вряд ли актуально) — например, когда нужно написать быстро статью на тему какой-то маркетинговой аналитики. Сейчас приходит к тому, что потихоньку это начинают писать роботы.

Георгиевская: Да.

Марин: Такое есть. Можно подумать на тему автоматической генерации контента для telegram-канала (не знаю, как вы там генерите контент).

Георгиевская: Пока ручками.

Марин: Ну, вот это тоже можно. Дальше большая тема — анализ источников, парсинг. Вы наверняка подписаны на большое количество разных источников, но их может быть больше, и анализировать можно не только на ключевые слова в отрыве. Сейчас machine learning (так называемые рекуррентные нейронные сети) позволяет хорошо анализировать контекст, т.е можно ловить какие-то темы не только потому, что там слово какое-то встретилось, а задать конкретный контекст предложения и прямо по нему мэтчиться. Мне кажется, для СМИ потенциал это как раз точнее, больше, быстрее реагировать на какие-то происходящие новости, видеть, что в тренде, а что нет, можно персонализироваться, можно автоматизировать написание каких-то публикаций и можно трэкать с точки зрения реакции читателей на публикации. И поверх этого, если у вас свой собственный канал, вы, конечно, можете персонализировать рекламу, но это уже самое очевидное.

Георгиевская: Как бы да. А вот по поводу того, что сейчас уже роботы быстро какие-то статьи пишут, они и спортивные сводки делают, как я понимаю…

Синодов: Какие спортивные сводки? Новости чемпионата Белоруссии по футболу? Извините, наболело.

Марин: Зачем Белоруссию-то обидели? (смеются)

Синодов: Сейчас нет спортивных сводок и нет соревнований!

Марин: Ну, это сейчас.

Георгиевская: В целом, прецеденты были. Сейчас они автоматически могут писать другую статистику, печальную и не очень.

Марин: Да, “курс доллара вырос на столько-то”.

Георгиевская: В связи с этим вопрос, как вы считаете (только говорите честно), через двадцать-тридцать лет, когда нейронные сети научатся прекрасно писать и освоят эпистолярный жанр, редактор-новостик он где? На Багамах попивает попивает коктейли и творит что-то в думах или он в перчатках с обрезанными пальцами стоит возле бака и греется где-то под мостом? (смеются)

Синодов: Могу я честно ответить: я на Багамах, а обычный редактор — в перчатках под мостом. Нескромно, но оно так.

Георгиевская: Интересно у вас в Roem всё устроено, но интересно мнение Сергея всё-таки.

Марин: Мы же много говорим про A/B-тестирование, так вот тестирование (не помню, кто проводил, но было года два назад, кажется) заключалось в следующем: взяли набор публикаций, часть из них написана человеком, часть — машиной. Посадили людей в аудиторию и попросили их оценить публикации по нескольким факторам, и два основные были — уровень доверия (насколько люди доверяют публикации) и уровень интереса. Получилось так, что публикации, написанные машиной, вызвали больше доверия, но были более скучными.

Синодов: Это правда.

Марин: Поэтому ответ будет такой: какой-то процент работы точно уйдёт, потому что, наверное, что-то быстрое и базовое не нужно будет писать.

Синодов: Я даже могу пояснить: например, изменение курса доллара на 1 рубль, оно ничего не значит с экономической точки зрения, и про это ничего, кроме факта, сообщить никто не может, как не может выделить и какую-то конкретную причину.

Марин: Об изменении курса доллара можно писать по-разному. Одно большое и уважаемое издание (не будем его называть) написало об изменении курса доллара так: “курс доллара на прошлой-позапрошлой неделе превысил какую-то отметку, но на этом он не остановился…”. Ты открываешь публикацию, а там написано “…он упал на 0,5”.

Синодов: Мило.

Марин: Согласитесь, автоматом такое не напишешь.

Синодов: Это человеческий ручной труд, дааа. (смеются) Но не каждый же день так получается, на самом деле. Проще, наверное, автоматизировать, чем человеку пытаться постоянно придумать весёлую подачу, тем более, что нас интересует не только курс доллара, а ещё эмитентов сотня-другая у деловых изданий.

Марин: Наверное, да. У нас как-то была даже такая публикация на тему того, заменят ли роботы людей, и моё мнение простое: все базовые работы, которые вы представляете, скорее всего уйдут; всё, что сильно менее базовое, задержится. Насколько? На это я не готов ответить.

Синодов: Не пытались составить классификацию базовых профессий? Что относится к базовым?

Марин: Нет, конечно, но я для себя набросал таких, например, как водители такси — мне кажется, что они с нами не надолго.

Георгиевская: С такой-то работой!

Марин: Вообще водители.

Синодов: Курьеры под вопросом.

Марин: Курьеры — само собой.

Георгиевская: Кассиры.

Марин: Кассиры — да, это даже не искусственным интеллектом можно заменить.

Синодов: Причём многие говорят: “А я не понимаю, как курьер может быть заменён?!”. На мой взгляд, очень просто — приезжает к тебе автоматический фургон и говорит: “Спуститесь вниз и заберите из такой-то ячейки”.

Георгиевская: Это да. Единственное, что ко мне тоже недавно приехали и попросили спуститься вниз, забрать 30 килограммов. Кто сейчас сказал “парикмахеры”, я слышала. Кто доверит дрону свою голову стричь?!

Синодов: В первый раз? (смеются)

Марин: Вы знаете, мне кажется, здесь надо посмотреть на сегментирование аудитории по половому признаку — думаю, в принципе, доверят.

Георгиевская: Сомнительно. Страшненько.

Марин: Тогда, когда мы писали, у меня был более расширенный список базовых профессий, но я думаю, что вы сами можете додумать. Всё, где есть некоторый автоматизм в работе людей и мало интеллекта, со временем уйдёт. А что произойдёт с этими людьми — большой вопрос.

Георгиевская: В маркетинге, как вам кажется, какие профессии первыми падут?

Синодов: Я тебе скажу, что те, кто занимаются “холодными” почтовыми рассылками, они практически исчезли, потмоу что сидит один человек и пишет скрипт, который потом рассылается по миллионам адресов.

Марин: Если говорить про маркетинг в контексте продаж, есть такая функция, называется CRM. Там была некоторая эволюция. Первая итерация выглядела так: люди сидели и придумывали, кому что предлагать (во многом так и осталось, если честно). Допустим, я — банк, и у меня есть продукт — карта, и я думаю кому предложить эту карту по телефону. Я придумываю, что можно выделить тех, кто ездит за заграницу, потому что это кобрендинговая карта с авиакомпаниейн — наверное, им она актуальна. Вторая итерация: мы строим модель для того же продукта, т.е. онат уже начинает прогнозировать, кому предложить карту, но это ещё много ручного труда. Третья итерация: полностью автоматически каждому клиенту предлагается свой продукт, и здесь большое количество людей уже не нужно, как пример. То же самое это оптимизаторы, если говорить про интернет-продажи. Или управление рекламой на любой рекламной площадке — сейчас этим занимаются люди, часто — один человек на одну площадку (Яндекс, Google или Facebook, например), настраивает вручную рекламную кампанию — наверное, такая работа со временем уйдёт.

Георгиевская: То есть медиапланирование/медиаразмещение, насколько я понимаю?

Марин: Медиапланирование в большом масштабе, скорее, останется (когда мы планируем наши бюджеты), а если мы управляем размещением в реальном времен (смотрим конверсии и т.д.), это, скорее, да.

Синодов: Я помню, Adobe предлагал свою систему и говорил, что они будут автоматически и креативы создавать, и тексты к ним писать, а нам нужно будет только деньги внести в личный кабинет и смотреть, какой возврат будет от них.

Марин: Это тоже развивается. Можно динамически создавать креативы, но сейчас это работает не так; сейчас просто генерируется автоматически набор креативов путём подмен — был один текст, стал второй текст, потом третий текст (эти тексты я заранее написал, и они постоянно меняются). Смотрят, какое сочетание (“текст” + “картинка”) лучше работает — это сейчас называется динамическим креативом. То есть это не искусственный интеллект, а масштабное A/B-тестирование. Можно ли писать рекламные тексты автоматически? Наверное, можно, просто я не знаю, есть ли кейсы.

Георгиевская: Пока что крипота получается.

Марин: Возможно, и, возможно, это ненадолго.

Синодов: Возможно, пока что, а, возможно, и в целом будет крипота. Можно ещё про медиа задам вопрос, связанный с персонализацией контента и тем, что новости от роботов получаются более сухо написанными, более скучно. Я так понимаю, что персонализация контента, она вообще может немного расходиться с целью СМИ — вытаскивать вещи, которые вроде бы непопулярны, но, поскольку медиа — массовая история, про них важно поговорить. Если же мы начинаем персонализировыать и подбирать какие-то вещи, наверное, мы будем пользоваться критериями “популярность”, “кликабельность заголовка” и т.д. Не будет ли так, что наша рекомендательная система будет выбирать одни лишь кликбейты, а какие-то важные вещи (я много раз это видел, что тема важная, читает её мало людей, но мнение по данному вопросу важно — несправедливое заключение, например) практически никогда не становятся кликбейтом, т.е. там часто нет повода для кликбейта. Есть же люди, о которых надо позаботиться (обездоленные, находящиеся в заключении, в ПНИ, в домах престарелых, просто нуждающиеся в поддержке на лечение, например) — машина это будет игнорировать, потому что оно не кликабельно. Это вообще сохранит роль медиа, если мы автоматизируем производство контента и его подачу?

Марин: Вы сейчас так сказали…

Синодов: Я могу короче сформулировать: есть неприятные вещи, на которые кликать никто никогда не будет.

Марин: Я всё понял, есть важные, но непопулярные инфоповоды. Ваше заявление, наверное, имело бы смысл, если бы мы в реальной жизни сейчас имели картину, что СМИ любят писать про важные и непопулярные инфоповоды. Мне кажется, это не совсем так, нет?

Синодов: Я даже не хочу называть эти СМИ, но видим примеры, когда СМИ шесть лет назад писали в одном стиле, сейчас — в другом, и читать там нечего, хотя — огромный рост траффика и аудитории.

Марин: Да, да, я и говорю, мне кажется, что сейчас есть тренд — писать про важные и непопулярные инфоповоды непопулярно. Отвечая на ваш вопрос о технической части: если мы говорим о рекомендательной системе, то она в своей идеальной форме сделает так, что люди будут читать ровно то, что они хотят читать. Но опять же, как в продажах, рекомендательной системой можно управлять (например, если вы выпустили новы продукт, и по нему ещё нет данных, а вы хотите его продавать — есть опции, включаете его предложение поверх всего).

Синодов: То есть появится новая профессия “оператор рекомендательной системы”.

Марин: ЧТо-то типа такого, да.

Синодов: Маша?

Георгиевская: У меня всё. Я всё спросила и всё узнала.

Синодов: Тогда я задам последний вопрос, пользуясь тем, что Маша уже всё узнала. Как у нас на текущий момент, если говорить про общий флёр вокруг big data (мы помним скандал с Cambridge Analytica; моё мнение такое, что людям в целом пофигу, и если бы СМИ не писали об этом, то никто бы и не заметил), насколько сейчас будет проще залезать в личную жизнь людей благодаря коронавирусу? “Потому что у нас коронавирус страшный, а вы не даёте данные. Вы что, хотите, чтобы все умерли?!”.

Марин: Я не готов ответить на этот вопрос, но вы видите, что под маской коронавируса много чего происходит, причём с долгосрочными последствиями, как ни странною

Синодов: Можете выделить?

Марин: Я?!

Синодов: Вы говорите об этом, значит, вы какие-то долгосрочные последствия видите или, по крайней мере, предполагаете.

Марин: Не с точки зрения данных; с точки зрения данных, пока что я, кроме видеонаблюдения и т.д., ничего такого не слышал, а с точки всего остального, например, налогообложения, я думаю, нам всем уже всё рассказали. Не удивлюсь, если и касательно данных возникнут какие-то идеи, которые будут иметь долгосрочные последствия, под предлогом необходимости, связанной с коронавирусом.

Георгиевская: Ну да.

Синодов: Интересно. Хорошо! С вами были мы, Юрий Синодов, Маша Георгиевская и Сергей Марин, основатель компании “Студия Данных”, которая специализируется на решениях на базе AI. Всем пока!

Георгиевская: Всем пока! Сергей, спасибо вам.

Марин: Спасибо, до свидания.


Подкаст записан совместными усилиями издания о рекламе и маркетинге Adindex.ru и обменной сетью Smi2.ru. Расшифровка отредактирована с целью повышения удобочитаемости.

| Подписаться на комментарии | Комментировать

©