Продюсер направления Data Science Нетологии Елена Герасимова рассказала, что представляет из себя отрасль и как построить в ней карьеру.
Обучение в онлайн-университете: курс “
Что такое Data Science
Data Science – наука о данных и их анализе. Сфера охватывает сбор больших массивов структурированных и неструктурированных данных и преобразование их в человекочитаемый формат, включая визуализацию, работу со статистикой и аналитическими методами – машинным и глубоким обучением, анализом вероятностей и построением предиктивных моделей, построением нейронных сетей и их применением для решения актуальных задач.
Сфера работы с данными – огромная отрасль, в которой выделяют несколько ключевых направлений, включая Data Science
- Искусственный интеллект – обучение машин думать для упрощения рутинных процессов и освобождение людского ресурса для творческих задач. Первыми моделями ИИ считают машины Тьюринга, созданные в 1936 году. Несмотря на долгую историю, сегодня ИИ в большинстве областей еще не способен полностью заменить человека. И соревнования искусственного интеллекта с человеком в шахматах, и шифрование данных – две стороны одной медали.
- Машинное обучение – создание инструментов для извлечения знаний из данных. В ML модели могут обучаться на данных самостоятельно или поэтапно: обучение с учителем, то есть наличие подготовленных человеком данных ⟶ обучение без учителя, работа со стихийными, зашумленными данными.
- Глубокое обучение – создание многослойных нейронных сети в областях, где нужен более продвинутый или быстрый анализ и традиционное машинное обучение не справляется. “Глубину” обеспечивает более чем один скрытый слой нейронов в сети, которая проводит математические вычисления.
- Data Science – придача массивам данных смысла, визуализация, сбор инсайтов и принятие на основе данных решений. Специалисты направления использует некоторые методы машинного обучения и Big Data – облачные вычисления, инструменты создания виртуальной среды разработки и многое другое.
- Big Data – работа с огромными объемами часто неструктурированных данных. Специфика сферы – инструменты и системы, способные выдержать высокую нагрузку.
Как и где зарабатывать на данных
- Собирать и продавать данные – в соцсетях, поисковых системах, медиа сайтах.
- Обслуживать данные – в софтверных компаниях-гигантах Google, Amazon и других.
- Разрабатывать продукты, использующие Data-решения – в компаниях, которые создают беспилотники и другую инновационную технику.
- Извлекать из данных пользу – в рекомендательных системах, сервисах прогноза погоды и других сферах, полезных рядовым пользователям.
Самая обширная сфера – извлечение пользы из данных. Она охватывает:
- обнаружение аномалий, например, аномального поведения клиентов, мошенничества;
- персонализированный маркетинг – персональные e-mail рассылки, ретаргетинг, рекомендательные системы;
- прогнозы метрик – показателей эффективности, качества рекламных кампаний и других направлений деятельности;
- скоринговые системы – обрабатывают большие объемы данных и помогают принять решение, например, о выдаче кредита;
- базовое взаимодействие с клиентом – стандартные ответы в чатах, голосовые помощники, сортировка писем по папкам.
Из чего состоит аналитика данных
Сбор. Поиск каналов, где можно собирать данные, и способов их получения.
Проверка. Валидация, отсечение аномалий, которые не влияют на результат и сбивают с толку при дальнейшем анализе.
Анализ. Изучение данных, подтверждение предположений, выводы.
Визуализация. Представление в таком виде, который будет простым и понятным для восприятия человеком – в графиках, диаграммах.
Действие. Принятие решений на основе проанализированных данных, например, о смене маркетинговой стратегии, увеличении бюджета на какое-либо направление деятельности компании.
Кем можно работать в аналитических проектах
Аналитики McKinsey еще в 2012 году предсказали дефицит специалистов по данным. Только в США в 2018 году нехватка составила 140-190 тысяч человек. Недостаток менеджеров, которые могут задавать аналитикам правильные вопросы, еще больше – 1,5 миллионов человек. Эти прогнозы подтвердились, специалистов действительно не хватает.
Траектории обучения Data Scientist / Аналитик Данных / Аналитик BI в Нетологии
Уровень трансформации данных. ETL-специалисты преобразуют неструктурированные массивы данных в БД:
- Data Engineer – отвечает за целостность и оптимальное хранение данных;
- разработчик БД – обеспечивает работоспособность БД;
- архитектор БД – проектирует хранение данных.
Уровень обработки данных. Анализируют собранные на предыдущем уровне данные, чтобы получить из них знание и извлечь пользу:
- аналитик – анализирует метрики, проводит эксперименты, составляет прогнозы;
- Data scientist – разрабатывает продукт, основанный на данных, например, рекомендательную систему.
- BI-специалист – занимается визуализацией, интерактивным dashboard;
- ML Engineer – разрабатывает и отвечает за развитие Data Driven продуктов.
Больше всего карьерных треков у ML Engineer (по сути, разработчик алгоритмов). Это нейросети, голосовые помощники, Object detection – сфера безопасности, предсказание спроса, предиктивная аналитика, распознаванием объектов. Среди более сложных направлений: GAN – работа с изображениями, RL – игровые стратегии, геймдев, Black-box AI – коробочные решения для искусственного интеллекта.
Из каких профессий быстрее всего переквалифицироваться
Как разобраться в направлениях работы
Какие знания и навыки нужны аналитику данных
Чему обучают будущих аналитиков
Hard skills:
- собирать и анализировать требования заказчика к отчетности;
- получать, очищать и преобразовывать, визуализировать и представлять данные;
- интерпретировать данные, делать на их основе обоснованные выводы;
- разрабатывать требования к аналитическим инструментам, сопровождать их внедрение;
- проводить исследования и А/Б тесты, готовить аналитику для принятия стратегических решений.
Soft skills:
- знать основные математические методы и азы статистики;
- мыслить абстрактно;
- делать скетчи и прототипы;
- видеть в метриках физический смысл, находить причины и взаимосвязи событий;
- обладать развитым эмоциональным интеллектом;
- предоставлять рекомендации бизнесу.
Навыки верхнего уровня по направлениям работы в Data Science
С какими инструментами предстоит работать
Всем специалистам Data Science нужно освоить электронные таблицы и инструменты доступа и обработки данных: СУБД, хранилища данных, SQL, ETL.
BI-аналитику: инструменты BI, например, Power BI, Tableau, инструменты OLAP и майнинга: SAS, R, Weka, Python (ограниченно, под конкретные задачи), Knime, RapidMiner.
Data Scientist и аналитику данных: библиотеки визуализации и анализа внутри Python и R, инструменты майнинга – углубленно, интерактивные оболочки Jupiter, Zeppelin, инструменты автоматизации и развертывания Docker, Airflow.
Мнение автора и редакции может не совпадать. Хотите написать колонку для “Нетологии”? Читайте наши