Продюсер направления Data Science Нетологии Елена Герасимова рассказала, что представляет из себя отрасль и как построить в ней карьеру.

Обучение в онлайн-университете: курс “Data Scientist

Что такое Data Science

Data Science – наука о данных и их анализе. Сфера охватывает сбор больших массивов структурированных и неструктурированных данных и преобразование их в человекочитаемый формат, включая визуализацию, работу со статистикой и аналитическими методами – машинным и глубоким обучением, анализом вероятностей и построением предиктивных моделей, построением нейронных сетей и их применением для решения актуальных задач.


Сфера работы с данными – огромная отрасль, в которой выделяют несколько ключевых направлений, включая Data Science

  • Искусственный интеллект – обучение машин думать для упрощения рутинных процессов и освобождение людского ресурса для творческих задач. Первыми моделями ИИ считают машины Тьюринга, созданные в 1936 году. Несмотря на долгую историю, сегодня ИИ в большинстве областей еще не способен полностью заменить человека. И соревнования искусственного интеллекта с человеком в шахматах, и шифрование данных – две стороны одной медали.

  • Машинное обучение – создание инструментов для извлечения знаний из данных. В ML модели могут обучаться на данных самостоятельно или поэтапно: обучение с учителем, то есть наличие подготовленных человеком данных ⟶ обучение без учителя, работа со стихийными, зашумленными данными.
  • Глубокое обучение – создание многослойных нейронных сети в областях, где нужен более продвинутый или быстрый анализ и традиционное машинное обучение не справляется. “Глубину” обеспечивает более чем один скрытый слой нейронов в сети, которая проводит математические вычисления.

  • Data Science – придача массивам данных смысла, визуализация, сбор инсайтов и принятие на основе данных решений. Специалисты направления использует некоторые методы машинного обучения и Big Data – облачные вычисления, инструменты создания виртуальной среды разработки и многое другое.
  • Big Data – работа с огромными объемами часто неструктурированных данных. Специфика сферы – инструменты и системы, способные выдержать высокую нагрузку.

Как и где зарабатывать на данных

  • Собирать и продавать данные – в соцсетях, поисковых системах, медиа сайтах.
  • Обслуживать данные – в софтверных компаниях-гигантах Google, Amazon и других.
  • Разрабатывать продукты, использующие Data-решения – в компаниях, которые создают беспилотники и другую инновационную технику.
  • Извлекать из данных пользу – в рекомендательных системах, сервисах прогноза погоды и других сферах, полезных рядовым пользователям.

Самая обширная сфера – извлечение пользы из данных. Она охватывает:

  • обнаружение аномалий, например, аномального поведения клиентов, мошенничества;
  • персонализированный маркетинг – персональные e-mail рассылки, ретаргетинг, рекомендательные системы;
  • прогнозы метрик – показателей эффективности, качества рекламных кампаний и других направлений деятельности;
  • скоринговые системы – обрабатывают большие объемы данных и помогают принять решение, например, о выдаче кредита;
  • базовое взаимодействие с клиентом – стандартные ответы в чатах, голосовые помощники, сортировка писем по папкам.

Из чего состоит аналитика данных

Сбор. Поиск каналов, где можно собирать данные, и способов их получения.

Проверка. Валидация, отсечение аномалий, которые не влияют на результат и сбивают с толку при дальнейшем анализе.

Анализ. Изучение данных, подтверждение предположений, выводы.

Визуализация. Представление в таком виде, который будет простым и понятным для восприятия человеком – в графиках, диаграммах.

Действие. Принятие решений на основе проанализированных данных, например, о смене маркетинговой стратегии, увеличении бюджета на какое-либо направление деятельности компании.

Кем можно работать в аналитических проектах

Аналитики McKinsey еще в 2012 году предсказали дефицит специалистов по данным. Только в США в 2018 году нехватка составила 140-190 тысяч человек. Недостаток менеджеров, которые могут задавать аналитикам правильные вопросы, еще больше – 1,5 миллионов человек. Эти прогнозы подтвердились, специалистов действительно не хватает.


Траектории обучения Data Scientist / Аналитик Данных / Аналитик BI в Нетологии

Уровень трансформации данных. ETL-специалисты преобразуют неструктурированные массивы данных в БД:

  • Data Engineer – отвечает за целостность и оптимальное хранение данных;
  • разработчик БД – обеспечивает работоспособность БД;
  • архитектор БД – проектирует хранение данных.

Уровень обработки данных. Анализируют собранные на предыдущем уровне данные, чтобы получить из них знание и извлечь пользу:

  • аналитик – анализирует метрики, проводит эксперименты, составляет прогнозы;
  • Data scientist – разрабатывает продукт, основанный на данных, например, рекомендательную систему.
  • BI-специалист – занимается визуализацией, интерактивным dashboard;
  • ML Engineer – разрабатывает и отвечает за развитие Data Driven продуктов.

Больше всего карьерных треков у ML Engineer (по сути, разработчик алгоритмов). Это нейросети, голосовые помощники, Object detection – сфера безопасности, предсказание спроса, предиктивная аналитика, распознаванием объектов. Среди более сложных направлений: GAN – работа с изображениями, RL – игровые стратегии, геймдев, Black-box AI – коробочные решения для искусственного интеллекта.


Из каких профессий быстрее всего переквалифицироваться

Как разобраться в направлениях работы

Какие знания и навыки нужны аналитику данных


Чему обучают будущих аналитиков

Hard skills:

  • собирать и анализировать требования заказчика к отчетности;
  • получать, очищать и преобразовывать, визуализировать и представлять данные;
  • интерпретировать данные, делать на их основе обоснованные выводы;
  • разрабатывать требования к аналитическим инструментам, сопровождать их внедрение;
  • проводить исследования и А/Б тесты, готовить аналитику для принятия стратегических решений.

Soft skills:

  • знать основные математические методы и азы статистики;
  • мыслить абстрактно;
  • делать скетчи и прототипы;
  • видеть в метриках физический смысл, находить причины и взаимосвязи событий;
  • обладать развитым эмоциональным интеллектом;
  • предоставлять рекомендации бизнесу.


Навыки верхнего уровня по направлениям работы в Data Science

С какими инструментами предстоит работать

Всем специалистам Data Science нужно освоить электронные таблицы и инструменты доступа и обработки данных: СУБД, хранилища данных, SQL, ETL.

BI-аналитику: инструменты BI, например, Power BI, Tableau, инструменты OLAP и майнинга: SAS, R, Weka, Python (ограниченно, под конкретные задачи), Knime, RapidMiner.

Data Scientist и аналитику данных: библиотеки визуализации и анализа внутри Python и R, инструменты майнинга – углубленно, интерактивные оболочки Jupiter, Zeppelin, инструменты автоматизации и развертывания Docker, Airflow.


Мнение автора и редакции может не совпадать. Хотите написать колонку для “Нетологии”? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.

©


Смотрите также/You may also like