Координатор БЮ Data Science Нетологии Вероника Лобанова сделала адаптированный перевод Oleksii Kharkovyna о том, кто такие инженеры данных и что нужно знать новичкам, чтобы освоить профессию.
Обучение в онлайн-университете: курс ““
Инженер данных – смесь аналитика данных и дата сайентиста. Он отвечает за извлечение, преобразование, загрузку данных и их обработку. Профессия востребована в первую очередь благодаря высоким зарплатам и спросу среди работодателей. Дальше расскажу, какие задачи выполняют инженеры данных, чем отличаются от дата сайентистов и что нужно знать тем, кто хочет освоить специальность.
.jpg)
Что такое инженерия данных
“Ученый может открыть новую звезду, но не может создать ее. Для этого ему пришлось бы обратиться к инженеру”, – Гордон Линдсей Глегг
Из названия специальности следует, что она связана с данными: их доставкой, хранением и обработкой. Главная задача инженера – подготовить надежную инфраструктуру для данных. В ИИ-иерархии потребностей инженерия данных занимает первые две-три ступени: сбор, перемещение и хранение, подготовка данных.
.png)
Иерархия потребностей в Data Science
Что делает инженер данных
С появлением Big Data сфера ответственности специалистов по обработке данных изменилась. Если раньше инженеры писали большие SQL-запросы и обрабатывали данные с помощью таких инструментов, как Informatica ETL, Pentaho ETL, Talend, то теперь от них ждут большего. Специалисту нужно отлично знать SQL и Python, желательно – Java/Scala, иметь опыт работы с облачными платформами, в частности Amazon Web Services.
И это только самое необходимое. Логично предположить, что инженеры должны разбираться в разработке программного обеспечения и серверной разработке. В компании, которая генерирует большой объем данных из разных источников, задача инженера – организовать сбор информации, ее обработку и хранение.
Инструменты могут отличаться, все зависит от объема данных, их скорости поступления и неоднородности. Многие компании вообще не работают с большими данными, поэтому в качестве централизованного хранилища используют базу SQL (PostgreSQL, MySQL) с небольшим количеством скриптов, которые направляют данные в репозиторий.
У IT-гиганов вроде Google, Amazon, Facebook или Dropbox требования к кандидатам выше:
- знание Python, Java или Scala;
- опыт работы с технологиями обработки больших данных: Hadoop, Spark, Kafka;
- знание алгоритмов и структур данных;
- понимание основ распределенных систем;
- большим плюсом будет опыт работы с инструментами визуализации данных, такими как Tableau или ElasticSearch.
Основной упор в технологиях Big Data сейчас делают на их обработку в условиях высокой нагрузки. Поэтому компании повысили требования к отказоустойчивости системы.
Инженеры данных и дата сайентисты: в чем отличия
.jpg)
Простое объяснение отличий, в реальности все сложнее
Четких различий между ролью дата сайентиста и инженера данных нет. Одна из причин в том, что инженерам может понадобиться разный набор навыков. Некоторые скиллы актуальны для всех вакансий, другие – отличаются в зависимости от компании и проекта.
В тоже время в Data Science инструменты становятся проще, выводы на основе данных делают аналитики. Но для того, чтобы подготовить данные – задействовать конвейеры и интегрированные структуры данных – дата инженеры подойдут больше, чем дата сайентисты.
Инженер данных сильнее в программировании, чем Data Scientist. Но когда дело доходит до статистики, все с точностью до наоборот. При этом без инженера данных ценность модели-прототипа часто стремится к нулю. Дело в том, что модели-прототипы часто состоят из фрагмента кода Python низкого качества, который получен дата сайентистом и непонятно как работает. Без инженера этот код не станет проектом, бизнес-проблему не получится эффективно решить – именно этот специалист превращает код в продукт.
Что нужно знать инженеру данных
.jpg)
Освоить специальность инженера данных можно без технического бэкграунда и умения программировать. Это сложно, но возможно. Адиль Хаштамов , что новичкам на пути к профессии нужно пройти следующие шаги.
Изучите алгоритмы и структуры данных
Инженерам нужно разбираться в структурах данных и понимать работу баз данных и алгоритмов, которые лежат в их основе. Это важно потому, что правильная структура данных может значительно улучшить производительность алгоритма.
Проверьте себя. Понимаете ли вы, о чем идет речь ниже?
Обычные B-tree SQL-базы данных основаны на структуре B-деревьев, а также на современных распределенных репозиториях LSM-деревьев и других модификациях хеш-таблиц.
Материалы для обучения
- Начните с бесплатных курсов от Udemy и Coursera: , , .
- Когда освоите базовые понятия, смотрите ролики Университета Карнеги-Меллона, например, и .
- Когда нужно будет освежить знания, прочтите справочник Томаса Кормена “Алгоритмы. Построение и анализ“.
- Практикуйтесь на .
Освойте SQL
Чтобы извлечь данные из базы, нужно “говорить” с ними на одном языке. Этот язык – SQL. Сейчас можно услышать, что язык скоро никто не будет использовать. Но практика показывает другое, SQL востребован в многих проектах, его указывают в требованиях к кандидату в вакансиях. Современные хранилища больших данных вроде Amazon Redshift, HP Vertica, Oracle, SQL Server поддерживают SQL. Язык развивается, для анализа большого массива данных из распределенных систем вроде HDFS изобрели движки SQL-запросов: Apache Hive, Impala и другие.
Материалы для обучения:
- бесплатный курс ;
- платные курсы и с интерактивной средой, в которой можно писать и выполнять SQL-запросы прямо в браузере;
- ресурс ;
- задачи .
Чтобы освоить язык, больше практикуйтесь.
Научитесь писать код на Python и Java / Scala
Почитать о том, почему стоит учить Python, можно в статье .
С необходимостью Java и Scala все очевидно: большинство инструментов для хранения и обработки больших данных написаны на этих языках. В их числе Hadoop, HDFS, Apache Cassandra, HBase, Apache Hive на Java; Apache Kafka и Apache Spark на Scala. Чтобы понять, как работают инструменты, нужно знать языки, на которых они написаны.
Функциональный подход языка Scala позволяет эффективно решать задачи параллельной обработки данных. В Python нет скорости и параллельной обработки. Но знать его нужно, ведь если вы знаете несколько языков и парадигм программирования, то сможете выбрать оптимальный вариант для решения конкретной проблемы.
Материалы для обучения:
- книга “Программирование в Scala” от создателя языка;
- вводное руководство , опубликованное Twitter;
- пособие “Python. К вершинам мастерства”, которое поможет освоить язык на среднем уровне.
Разберитесь в Big Data
Apache Spark, Apache Kafka, Apache Hadoop (HDFS, HBase, Hive), Apache Cassandra – популярные инструменты для работы с большими данными. В работе вы столкнетесь хотя бы с одним-двумя из них. Скорее всего это будут Spark и Kafka, задействованные во многих проектах. Инструменты стоит изучить так, чтобы понять, как они работают изнутри.
Подробнее узнать о составляющих Big Data можно в .
Материалы для обучения:
- книга “Spark: полное руководство“;
- “” от соавтора Kafka Джея Крэпса – идеи работы легли в основу Apache Kafka;
- “” для введения в Hadoop.
Освойте облачные платформы
.png)
Знание хотя бы одной облачной системы есть в требованиях почти каждой вакансии на должность инженера данных. Работодатели отдают предпочтение Amazon Web Services, реже – Google Cloud Platform и Microsoft Azure. Важно хорошо ориентироваться в Amazon EC2, AWS Lambda, Amazon S3, DynamoDB.
Поймите, как работают распределенные системы
Работа с большими данными подразумевает наличие кластеров независимо работающих компьютеров, общение между которыми происходит по сети. Чем крупнее кластер, тем больше вероятность выхода из строя входящих в него узлов. Чтобы стать специалистом в области данных, нужно предвидеть проблемы распределенных систем и знать возможные решения.
Материалы для обучения:
- вводная книга “Высоконагруженные приложения. Программирование, масштабирование, поддержка” Мартина Клеппмана и его помогут систематизировать знания о строении современной инфраструктуры для хранения и обработки больших данных;
- видеокурс ;
- книга “Распределенные системы” Эндрю Таненбаума подойдет тем, кто уже понимает основы распределенных систем и хочет прокачать знания.
Освойте конвейеры обработки данных
.jpg)
Конвейеры обработки данных – то, без чего инженеру данных не обойтись. Значительную часть рабочего времени он выстраивает процесс доставки данных из одного места в другое. Это могут быть кастомные скрипты, которые ходят в API внешнего сервиса или делают SQL-запрос, обогащают полученные данные и укладывают в централизованное хранилище (data warehouse) или хранилище неструктурированных данных (data lakes).
Читать еще: ““
Полезные курсы от Нетологии
- курс ““;
- курс ““;
- курс ““.
Мнение автора и редакции может не совпадать. Хотите написать колонку для “Нетологии”? Читайте наши . Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к .