Компетенции специалиста по DS находятся на пересечении информатики, математики и статистики, знаний бизнеса и доменной области
Суть работы специалиста по Data Science — использовать алгоритмы, которые уже придумали до него, и разбираться в том, какие из них и когда применять. Например, ИИ Netflix, который предлагает сериалы и фильмы на основании того, что люди лайкают и смотрят, — это тоже результат работы дата-сайентиста.
Прояснить требования к бизнес-задаче и перевести её в математическую плоскость.
Подготовить данные для решения задачи: разобраться, откуда их взять, и как обработать, чтобы они стали доступны для работы.
Проанализировать и структурировать данные.
Построить модель машинного обучения, которая будет решать задачу.
Проверить правильность работы модели: внедрить на наборе пользователей или провести A/B-тестирование.
Этот список можно зацикливать и возвращаться на пункт сбора данных или обучения модели, если текущая не сработает.
Например, клиент хочет увеличить выручку от маркетинговых рассылок. Чтобы решить эту задачу, дата-сайентист сначала должен разобраться, какие показатели влияют на выручку.
Для этого он попросит у маркетологов данные по рассылкам, которые лежат в базе или в таблице Excel. Специалист по Data Science соберёт их вместе и сегментирует получателей рассылки на тех, кто принял предложение, и тех, кто не отреагировал.
Дальше Data Scientist оценивает, достаточно ли данных для построения моделей, и если да, то пишет алгоритм, который отправит каждому подписчику подходящее только ему письмо.
После этого останется проверить рассылку на небольшом количестве пользователей и замерить её эффективность. Если она окажется выше, то можно радоваться успеху. А если нет, то придётся вернуться на этап сбора данных и повторить всю цепочку снова.
Задача аналитика — провести статистический анализ, чтобы ответить на вопросы или решить проблемы. Для этого он собирает данные, выявляет закономерности и формирует отчёты, которые помогают руководителям проекта или бизнеса принимать стратегические решения.
Специалист по Data Science не только умеет анализировать и визуализировать данные, но и строить модели на их основе. Для этого требуются знания машинного обучения (англ. Machine Learning) и глубокого обучения (англ. Deep Learning), которыми аналитик не обладает.
Специалист по Data Science анализирует данные, строит модели и тестирует их. В обязанности ML-инженера входит автоматизировать работу моделей, следить, чтобы работали качественно, и устранять ошибки. Если точность модели упадёт, то инженер разберётся в причинах и переобучит алгоритм.
Работа ML-инженера, аналитика данных, инженера данных, ML-исследователя, аналитика и разработчика связана с доменной областью
Распределение навыков специалиста по Data Science сильно смещено в сторону технических, потому что большая часть его работы связана с данными, а не с людьми.
— Математика, статистика, машинное обучение.
— Работа с базами данных.
— Владение инструментами обработки больших данных: Apache Spark и Hadoop Mapreduce.
— Продуктивизация моделей.
— Английский уровня Advanced Proficiency для чтения технической литературы.
— Понимание специфики бизнеса и доменной области.
— Презентация результатов своей работы.
Навыки специалиста по DS
Навыки, которые необходимы специалисту по DS на разных грейдах
Плюсы | Минусы |
---|---|
Новая интересная профессия Позволяет решать необычные задачи. Возможность реально влиять на процессы в компании Высокие зарплаты | Непонимание Далеко не все владельцы бизнесов понимают, для чего внедрять в компании Data Science и машинное обучение, и пытаются нагрузить дата-сайентистов задачами не их квалификации, например подготовкой отчётов, аналитикой или составлением дашбордов. Нереалистичные ожидания от профессии Знания быстро устаревают |
Постоянно появляются новые задачи, которые можно решать с помощью Data Science. Современные модели машинного обучения помогают иначе решать задачи даже годичной давности — и зарабатывать больше.
Путь дата-сайентиста — это путь постоянного совершенствования себя в профессии. Задачи для дата-сайентистов становятся сложнее и интереснее. Например, создание чат-ботов поддержки и голосовых помощников с помощью NLP (англ. Natural Language Processing) или машинного обучения на основании текстовых данных.
По данным Хабр Карьеры начинающий дата-саентист зарабатывает в среднем 112 тыс. руб., мидл — 219 тыс. руб., сеньор — 335 тыс. руб.
Средняя зарплата дата-саентиста составляет 188 тыс. руб. Источник
Вариант для тех, кто хочет получить эти знания и навыки для профессии за 8 месяцев, — курс Яндекс Практикума «Специалист по Data Science» с полной поддержкой, менторами и структурированным материалом.
Data Scientist — это специалист по работе с данными для решения задач бизнеса. Он работает на стыке программирования, машинного обучения и математики.
В основные обязанности дата-сайентиста входит сбор и анализ данных, построение моделей, их обучение и тестирование. Data Scientist должен разбираться в том, как работает компания и конкретная индустрия, в которой он занят.
Профессия Data Scientist постоянно развивается и высоко оплачивается. Появляются новые интересные задачи. Востребованность дата-сайентистов в больших компаниях будет только расти, как и их зарплаты.
Чтобы стать дата-сайентистом, не обязательно оканчивать профильный математический вуз. Можно получить дополнительное образование, пойти на стажировку или устроиться на работу младшим специалистом.
Читать также: