Анализ данных  •  27 апреля 2023  •  5 мин чтения

Кто такой Data Scientist

Чем занимается специалист по Data Science, правда ли он так много зарабатывает и какие навыки нужно освоить, чтобы им стать.

Кто такой Data Scientist

Data Scientist — это специалист, который создаёт инструменты для решения задач бизнеса. Для этого он использует навыки анализа данных и построения моделей машинного обучения (англ. Machine Learning). Data Scientist работает на стыке трёх областей знания: статистики, машинного обучения и программирования.
Data Scientist работает на стыке трёх областей знания

Компетенции специалиста по DS находятся на пересечении информатики, математики и статистики, знаний бизнеса и доменной области

Специалист по Data Science нужен практически в любой индустрии — от промышленности до стриминговых сервисов. Например, в ретейле Data Scientist анализирует данные о поведении покупателей в магазине → создаёт модель подбора оптимальной цены → средний чек увеличивается → профит, компания получает прибыль.

Суть работы специалиста по Data Science — использовать алгоритмы, которые уже придумали до него, и разбираться в том, какие из них и когда применять. Например, ИИ Netflix, который предлагает сериалы и фильмы на основании того, что люди лайкают и смотрят, — это тоже результат работы дата-сайентиста.

Материал по теме:
Чем Data Scientist отличается от аналитика данных

Чем занимается специалист по обработке данных

Задачи, которые решает Data Scientist, идут строго по порядку — начать новую не получится, пока не завершена предыдущая. Нельзя построить модель, пока не готовы данные.
Базовый список задач специалиста по Data Science
  1. Прояснить требования к бизнес-задаче и перевести её в математическую плоскость.

  2. Подготовить данные для решения задачи: разобраться, откуда их взять, и как обработать, чтобы они стали доступны для работы.

  3. Проанализировать и структурировать данные.

  4. Построить модель машинного обучения, которая будет решать задачу.

  5. Проверить правильность работы модели: внедрить на наборе пользователей или провести A/B-тестирование.

Этот список можно зацикливать и возвращаться на пункт сбора данных или обучения модели, если текущая не сработает.

Например, клиент хочет увеличить выручку от маркетинговых рассылок. Чтобы решить эту задачу, дата-сайентист сначала должен разобраться, какие показатели влияют на выручку.

Для этого он попросит у маркетологов данные по рассылкам, которые лежат в базе или в таблице Excel. Специалист по Data Science соберёт их вместе и сегментирует получателей рассылки на тех, кто принял предложение, и тех, кто не отреагировал.

Дальше Data Scientist оценивает, достаточно ли данных для построения моделей, и если да, то пишет алгоритм, который отправит каждому подписчику подходящее только ему письмо.

После этого останется проверить рассылку на небольшом количестве пользователей и замерить её эффективность. Если она окажется выше, то можно радоваться успеху. А если нет, то придётся вернуться на этап сбора данных и повторить всю цепочку снова.

Чем Data Scientist отличается от аналитика
Чаще всего специалиста по Data Science путают с аналитиком данных, потому что их задачи кажутся похожими на первый взгляд. Оба работают с большими массивами данных и отлично знают свои доменные области, то есть рынки и индустрии, но есть тонкости.

Задача аналитика — провести статистический анализ, чтобы ответить на вопросы или решить проблемы. Для этого он собирает данные, выявляет закономерности и формирует отчёты, которые помогают руководителям проекта или бизнеса принимать стратегические решения.

Специалист по Data Science не только умеет анализировать и визуализировать данные, но и строить модели на их основе. Для этого требуются знания машинного обучения (англ. Machine Learning) и глубокого обучения (англ. Deep Learning), которыми аналитик не обладает.

Чем Data Scientist отличается от ML-инженера
ML-инженер (англ. Machine Learning Engineer) продолжает работу специалиста по Data Science, если та показала хороший результат.

Специалист по Data Science анализирует данные, строит модели и тестирует их. В обязанности ML-инженера входит автоматизировать работу моделей, следить, чтобы работали качественно, и устранять ошибки. Если точность модели упадёт, то инженер разберётся в причинах и переобучит алгоритм.

Чем Data Scientist отличается от других специалистов

Работа ML-инженера, аналитика данных, инженера данных, ML-исследователя, аналитика и разработчика связана с доменной областью

Что должен знать и уметь Data Scientist

Для работы специалисту по Data Science нужно два вида навыков: технические и надпрофессиональные. Первые связаны с профильными дисциплинами, а вторые — с психологическими качествами и управлением и нужны любому специалисту вне зависимости от профессии.

Распределение навыков специалиста по Data Science сильно смещено в сторону технических, потому что большая часть его работы связана с данными, а не с людьми.

Технические навыки
— Программирование на Python, SQL.

— Математика, статистика, машинное обучение.

— Работа с базами данных.

— Владение инструментами обработки больших данных: Apache Spark и Hadoop Mapreduce.

— Продуктивизация моделей.

— Английский уровня Advanced Proficiency для чтения технической литературы.

— Понимание специфики бизнеса и доменной области.

Надпрофессиональные навыки специалиста
— Коммуникация с коллегами.

— Презентация результатов своей работы.

Что должен знать и уметь Data Scientist

Навыки специалиста по DS

Требования к джуниору, мидлу и сеньору Data Scientist

Junior Data Scientist должен знать и иметь:
  1. Базовые знания машинного обучения и статистики. Понимание основных алгоритмов и области их применения.
  2. Опыт применения: не обязателен, максимум — учебный проект.
  3. Программирование: уверенный Python и базовое знание SQL.
Middle Data Scientist должен иметь:
  1. Глубокие знания математики.
  2. Опыт: 2–3 решённых проекта.
  3. Программирование: уверенный Python и знание его особенностей в плане продуктивизации моделей и оптимизации работы.
  4. Уверенные знания по культуре проведения экспериментов, работа с инструментами внедрения и поддержки моделей машинного обучения: gitLFS, MLFlow, DVC. Знание A/B-тестирования.
  5. Умение решать задачу от начала до конца с минимальным вмешательством старшего специалиста или тимлида.
Требования к Senior Data Scientist:
  1. Глубокие, уверенные знания математики и статистики.
  2. Опыт: от 5 решённых проектов.
  3. Программирование: уверенные Python, SQL.
  4. Экспертные знания в своей области.
  5. Полная самостоятельность от постановки задачи до вывода в продакшен.
  6. Способность обучать и менторить младших и продвинутых специалистов.
Требования к джуниору, мидлу и сеньору Data Scientist

Навыки, которые необходимы специалисту по DS на разных грейдах

Плюсы и минусы профессии Data Scientist

Плюсы

Минусы

Новая интересная профессия
Позволяет решать необычные задачи.

Возможность реально влиять на процессы в компании
Приносить дополнительные миллионы выручки за счёт оптимизации бизнес-процессов с помощью data science.

Высокие зарплаты
Дата сайентисты зарабатывают больше, чем бэкенд- и фронтенд-разработчики.

Непонимание
Далеко не все владельцы бизнесов понимают, для чего внедрять в компании Data Science и машинное обучение, и пытаются нагрузить дата-сайентистов задачами не их квалификации, например подготовкой отчётов, аналитикой или составлением дашбордов.

Нереалистичные ожидания от профессии
Например, что Data Scientist обучит робота делать операции вместо хирурга.

Знания быстро устаревают
Приходится тратить много времени на освоение новых технологий и самообразование.

Востребованность и перспективы

Последние годы спрос на дата-сайентистов только растёт. Все крупные компании открывают отделы Data Science. Специалисты нужны и стартапам, и небольшим коллективам разработчиков.

Постоянно появляются новые задачи, которые можно решать с помощью Data Science. Современные модели машинного обучения помогают иначе решать задачи даже годичной давности — и зарабатывать больше.

Путь дата-сайентиста — это путь постоянного совершенствования себя в профессии. Задачи для дата-сайентистов становятся сложнее и интереснее. Например, создание чат-ботов поддержки и голосовых помощников с помощью NLP (англ. Natural Language Processing) или машинного обучения на основании текстовых данных.

Data Scientist — один из тех специалистов, которые обучают Алису выполнять простые просьбы
Создание моделей верификации личности, анализа очередей, доступности товаров и безопасности — это только малая часть того, для чего нужны специалисты по Data Science в ретейле.
Технология Face Pay в московском метро — результат работы дата-сайентистов. Специалисты этой области очень востребованы, и она продолжает развиваться
Нишевых специалистов для решения новых задач не хватает. Компании пытаются найти или перекупить дата-сайентистов. Отсюда возникает рост их зарплат. Если перекупить возможности нет, то компании взращивают дата-сайентистов для конкретных целей. Хороших специалистов немного, поэтому работа для них всегда есть, особенно на международном рынке.

Сколько зарабатывает Data Scientist

По данным Хабр Карьеры начинающий дата-саентист зарабатывает в среднем 112 тыс. руб., мидл — 219 тыс. руб., сеньор — 335 тыс. руб.

Средняя зарплата дата-саентиста составляет 188 тыс. руб. Источник

Как стать дата-сайентистом

Шаг 0: освоить математику и машинное обучение
Окончить профильный вуз и кафедру машинного обучения НИУ ВШЭ, МФТИ или МГУ. Отучиться прикладным математиком в непрофильном вузе тоже подойдёт.

Вариант для тех, кто хочет получить эти знания и навыки для профессии за 8 месяцев, — курс Яндекс Практикума «Специалист по Data Science» с полной поддержкой, менторами и структурированным материалом.

Шаг 1: набраться опыта
После обучения идти в компанию на стажировку или начальную позицию. Участвовать в соревнованиях по Data Science и машинному обучению, практиковаться в решении задач и построении моделей. Победы и опыт участия в соревнованиях будут плюсом при устройстве на работу.
Шаг 2: устроиться на работу
Теперь можно становиться дата-сайентистом в компании и развивать свои навыки в конкретной индустрии.

Запомнить

  1. Data Scientist — это специалист по работе с данными для решения задач бизнеса. Он работает на стыке программирования, машинного обучения и математики.

  2. В основные обязанности дата-сайентиста входит сбор и анализ данных, построение моделей, их обучение и тестирование. Data Scientist должен разбираться в том, как работает компания и конкретная индустрия, в которой он занят.

  3. Профессия Data Scientist постоянно развивается и высоко оплачивается. Появляются новые интересные задачи. Востребованность дата-сайентистов в больших компаниях будет только расти, как и их зарплаты.

  4. Чтобы стать дата-сайентистом, не обязательно оканчивать профильный математический вуз. Можно получить дополнительное образование, пойти на стажировку или устроиться на работу младшим специалистом.

Статью подготовили:

Егор Кузнецов
Яндекс Практикум
Наставник курса «Специалист по Data Science», Senior Data Scientist розничной сети «Магнит»
Юлия Слуцкая
Яндекс Практикум
Редактор

Дайджест блога: ежемесячная подборка лучших статей от редакции

Поделиться 

Успейте начать учебу в Практикуме до конца ноября со скидкой 20%

Thu Aug 01 2024 10:14:57 GMT+0300 (Moscow Standard Time)