Анализ данных  •  27 апреля  2023  •  5 мин чтения

Кто такой Data Engineer, чем отличается от других специалистов по данным и как им стать

Чтобы работать с данными, нужны системы, которые готовят их для анализа, то есть инфраструктура. За её построение и подготовку данных отвечает Data Engineer.

Кто такой Data Engineer

Чтобы вести бизнес, основываясь на данных, компании собирают информацию с сайтов, приложений, камер видеонаблюдения и датчиков на производстве и отдают их специалистам для анализа. Эти данные помогают прогнозировать спрос, изучать поведение клиентов, планировать эффективные рекламные кампании — в общем, извлекать пользу для бизнеса и зарабатывать больше денег.

Анализом данных занимаются аналитики или специалисты по Data Science. Прежде чем работать с информацией, её нужно собрать, грамотно структурировать, где-то сохранить, а потом доставить до аналитика. Для этого нужна инфраструктура: хранилища, серверные мощности для анализа, инструменты для сбора, очистки и доставки данных.

Data Engineer, или инженер данных, — это специалист, который занимается построением и обслуживанием инфраструктуры для работы с данными, а также их предварительной обработкой. Инженер не участвует в анализе, но обеспечивает аналитиков нужными мощностями, инструментами и подготовленными данными. Часто таких специалистов называют Big Data Engineer, или инженерами больших данных.

Материал по теме:
Чем занимается аналитик данных, почему он всем так нужен и как освоить эту профессию

Чем занимается инженер данных

● Разрабатывает систему для работы с данными: хранилища, инструменты и сервисы.

● Собирает данные. Источников могут быть десятки, но вся информация из них должна попадать в общее хранилище.

● Очищает данные: убирает дубли и устраняет ошибки.

● Структурирует данные так, чтобы они стали пригодны для аналитики. В чистом виде из источников данные «сырые», их нужно предварительно обработать.

● Настраивает загрузку данных и их движение между инструментами. Для этого он создаёт пайплайны — процессы движения данных от источника к нужному месту.

● Обновляет используемые инструменты и ищет способы улучшения и автоматизации существующих процессов.

Например, в крупной сети супермаркетов хотят построить умную систему закупок, которая будет сама рассчитывать, когда и сколько товара заказывать у поставщиков. Для этого нужны данные из мобильного приложения заказа товаров, с сайта, кассовых аппаратов и CRM-системы. Именно дата-инженер организует сбор данных, их хранение и подготовку для аналитики.

Для выполнения всех этих задач дата-инженера существуют специальные инструменты: хранилища и сервисы по обработке данных. Научиться с ними работать можно на курсе «Инженер данных».

Отличия Data Engineer от Data Scientist

Дата-инженер и специалист по Data Science — коллеги. Они практически всегда работают вместе и тесно сотрудничают друг с другом.

Дата-инженер собирает данные, хранит их, подготавливает и передаёт специалисту по Data Science. Тот, в свою очередь, получает эти данные и использует для аналитики или построения моделей машинного обучения.

Без инженера большим данным просто неоткуда будет взяться — они останутся в источниках, потому что их никто не соберёт, не сохранит и не передаст. Однако без специалиста по Data Science все эти собранные данные будут просто бесполезны, так как их некому будет проанализировать. Поэтому эти два специалиста всегда работают в связке: инженер поставляет данные, а специалист по Data Science применяет их с пользой для бизнеса.

Дата-инженер, аналитик и специалист по Data Science подключаются к данным на разных этапах, и в итоге все участвуют в создании пользы для бизнеса
Иногда специалист по данным совмещает обе функции и может сам собрать данные, подготовить, а потом проанализировать. Обычно такие универсальные специалисты работают в небольших компаниях. В крупных компаниях всегда есть специализация, потому что она позволяет работать с данными эффективнее.

Плюсы и минусы профессии

Плюсы

● Высокие зарплаты по сравнению с другими профессиями в сфере IT.

● Дефицит специалистов. Профессия обособилась от других недавно, и пока что специалистов мало. При этом спрос на них растёт, и конкуренция на этом рынке пока невысокая.

● Широкий простор для переквалификации. Можно развиваться в MLOps, DevOps или менеджменте.

Минусы

● Высокий порог входа — без опыта или образования в IT стать дата-инженером сложно. Нужно разбираться в разработке, аналитике или больших данных.

● Огромное количество инструментов для работы. Чтобы выбрать подходящий для конкретной компании и задачи, овладеть нужно будет всеми.

● Профессия инженера данных новая, и к ней ещё нет чётких требований. В вакансии могут указать «Data Engineer», а на самом деле искать аналитика. Обязанности придётся уточнять на собеседовании, но после трудоустройства могут загрузить совсем другими задачами.

Что должен знать и уметь Data Engineer

Структуры данных и математические алгоритмы. Понимание алгоритмов позволит общаться со специалистами по Data Science на одном языке и предоставлять им данные в удобном виде. Общие знания о том, как именно хранятся данные, понадобятся, чтобы грамотно их извлекать и обрабатывать.

Языки программирования. Самое главное — знать Python, потому что именно на нём пишут алгоритмы для обработки данных. Пригодятся Java и Scala — на них написаны сами инструменты для обработки данных. Знание языков понадобится, чтобы дорабатывать эти инструменты и эффективно их использовать.

SQL и классические базы данных. Часто данные нужно будет извлекать из классических БД с помощью SQL-запросов, поэтому инженер данных обязательно должен это уметь.

Инструменты для работы с большими данными. Таких инструментов много: различные колоночные БД, экосистема Hadoop для создания озёр данных, Spark и Kafka. Важно освоить хотя бы некоторые инструменты, чтобы понимать принципы их работы. Так будет проще подстроиться под те, которые используют в конкретной компании.

Облачные технологии. Сейчас практически все компании работают с большими данными в облаках, организуют там хранение и аналитику. Важно уметь строить инфраструктуру на базе облачной.

По такой схеме можно развивать свои навыки, чтобы стать инженером данных.
По такой схеме можно развивать свои навыки, чтобы стать инженером данных. Программирование и SQL удобно изучать параллельно.

Сколько зарабатывают дата-инженеры

Стажёрам и новичкам в этой профессии готовы платить в среднем от 65 до 125 тыс. рублей, согласно данным «Хабр Карьеры». Более опытным специалистам — 226 тыс. рублей. Для профессионалов встречаются предложения в 350–400 тыс. рублей. Обычно вакансии требуют присутствия в офисе, хотя есть варианты и с удалённой работой. В регионах зарплаты ниже и начинаются от 100 тыс. рублей для опытных специалистов.

В профессии большой разброс зарплат — уровень дохода зависит от опыта и технологий

Средняя зарплата инженера по данным в России — 227 тыс. рублей. Источник

Востребованность специалистов

На HeadHunter больше полутора тысяч вакансий по профессии дата-инженера. Indeed, где публикуют иностранные вакансии со всего мира, содержит около 14 000 объявлений.

По данным исследования «Хабр Карьеры», среди аналитиков самые востребованные — инженеры по данным. Они зарабатывают больше всего — за первую половину 2024 года их зарплаты выросли на 8%.

Из всех вакансий в этом списке у Data Engineer в 2019 году был самый значительный рост по сравнению с прошлым годом.

Инженеры данных — самые высокооплачиваемые и востребованные специалисты в аналитике данных. Источник

Как стать Data Engineer

1. Освоить базовые навыки

Изучать структуры данных, языки программирования, SQL, хранилища и пайплайны проще, если специалист уже разбирается в чём-то одном. Например, работает программистом и параллельно осваивает базы данных или администрирует БД и знакомится с большими данными и разработкой.

2. Набраться опыта
Поучаствовать в реальных проектах, связанных с большими данными. Начать можно на курсах, а продолжить — на стажировке в компании.
3. Устроиться на работу
Откликнуться на вакансию начинающего дата-инженера и приступать к работе.

Совет эксперта

Анатолий Бардуков
Если есть желание работать с данными, но изучать статистику и строить модели не хочется, профессия инженера данных — отличный выбор. Она позволит прикоснуться к большим данным, копаться в них, исследовать источники, но при этом не погружаться глубоко в сложную математику.

Статью подготовили:

Анатолий Бардуков
Яндекс
ML-инженер в службе качества поиска
Яндекс Практикум
Редактор

Дайджест блога: ежемесячная подборка лучших статей от редакции

Поделиться
Идеи новогодних подарков от нейросети + промокоды на курсы Практикума и акции от партнеров
Tue Nov 26 2024 11:53:17 GMT+0300 (Moscow Standard Time)