Аналитика • 02 октября 2023 • 5 мин чтения

Знакомство с наукой о данных: главное о Data Science

Специалисты по Data Science умеют находить закономерности в огромных объёмах данных, чтобы решать задачи бизнеса и не только. Разбираемся, как устроена эта наука.

Что такое Data Science

Данных в мире очень много, и их количество продолжает расти. Они бывают числовыми, текстовыми, в виде картинок или видео. Пользователи генерируют данные, когда оставляют комментарии в социальных сетях, отправляют сообщения в службу поддержки, ищут или покупают что-то в интернете.

Data Science (с англ. «наука о данных») — одно из больших направлений в IT. Специалисты по Data Science, или дата-сайентисты, ищут способы извлекать из больших объёмов данных информацию, которая помогает компаниям принимать решения и развивать бизнес. Например, дата-сайентист может спрогнозировать сезонный спрос на товары или вероятность оттока клиентов.

На курсе «Специалист по Data Science» студенты учатся на реальных проектах создавать программы на основе математических моделей для поиска закономерностей в данных и построения прогнозов.

Терминология для начинающих: что нужно знать о Data Science

Новичку в анализе данных может быть сложно сориентироваться в понятиях, терминах и направлениях Data Science. Попробуем разобраться в структуре науки о данных.

Специалисты по Data Science работают с большими данными, или Big Data, — это терабайты информации из разных источников. Например, крупные компании собирают данные о заказах и клиентах, чтобы изучать целевую аудиторию и спрос. Это помогает прогнозировать прибыль и принимать решения, какие направления бизнеса стоит развивать дальше.

Big Data — это настолько большие объёмы информации, что их невозможно собирать и обрабатывать вручную. Поэтому специалисты по Data Science ищут способы анализировать их и извлекать нужную информацию.

Data Science находится на стыке нескольких областей знаний, поэтому специалистам нужно обладать определённым набором компетенций

Что нужно для работы в Data Science:

● Владеть техническими инструментами
Специалистам по Data Science нужны компьютерные знания и навыки. Сейчас основные среди них — программирование на Python и SQL и обработка больших данных с помощью Apache Spark и Hadoop Mapreduce. Но инструменты постоянно развиваются. Поэтому важно быть готовым осваивать новые программы и языки программирования.

● Понимать математику и статистику
Математические алгоритмы — основа науки о данных. Начать погружение в Data Science стоит с изучения линейной алгебры, математического анализа, теории вероятностей и статистики. Без этих знаний будет сложно разобраться в алгоритмах моделей машинного обучения и подбирать подходящие для задач бизнеса. Изучить главное для работы в аналитике и Data Science можно на курсе «Математика для анализа данных».

● Разбираться в предметной области и работе бизнеса
Чтобы искать эффективные решения задач, нужно изучить область, для которой эти решения нужны. Выяснить, как она устроена и какие показатели влияют на результат. Часто специалисты по Data Science не работают у заказчиков на постоянной основе — их приглашают для реализации конкретного проекта. Например, найти способы сократить издержки, оптимизировать логистику или освободить сотрудников от рутинных задач. И каждый новый проект специалист по Data Science начинает с исследования специфики работы компании и её рынка.

● Обладать аналитическим мышлением
Для многих специалистов, например менеджеров или юристов, аналитическое мышление — «гибкий» навык. Оно помогает эффективнее взаимодействовать с коллегами и клиентами, быстрее достигать целей и развиваться в профессии. Для специалистов по Data Science аналитическое мышление — обязательная профессиональная компетенция. В процессе работы нужно задавать вопросы, искать закономерности, прогнозировать возможные результаты. Поэтому аналитическое мышление часто указывают в списке требований к кандидатам на вакансии в Data Science.

● Уметь визуализировать данные
То есть представлять данные в графической форме, например в виде диаграмм, гистограмм, карт или дашбордов. Визуализация упрощает работу с данными: позволяет наглядно увидеть результаты анализа, быстрее выявить закономерности и выдвинуть гипотезы. Специалисты по Data Science и аналитики используют для визуализации данных инструменты вроде графических библиотек Matplotlib, Seaborn, Plotly.

Перспективные профессиональные сферы с этим набором компетенций — AI, ML, DL. Рассмотрим их подробнее и разберёмся, как эти понятия связаны между собой.

Artificial Intelligence, или AI (с англ. «искусственный интеллект») — создание и развитие систем, которые способны решать интеллектуальные задачи. Например, такие системы могут распознавать симптомы болезней на медицинских снимках или играть в шахматы с человеком. В основе технологий искусственного интеллекта лежит работа с большими данными. С помощью различных методов специалисты создают алгоритмы, которые имитируют человеческое мышление.

Искусственный интеллект — большая область знаний и технологических практик. В ней выделяют разделы: машинное и глубокое обучение. Их методы используют для решения основной задачи Data Science — извлечь из данных пользу для людей и бизнеса

Machine Learning, или ML (с англ. «машинное обучение») — это раздел AI, который сфокусирован на обучении компьютерных систем таким образом, чтобы они могли решать задачи и делать прогнозы на основе данных. Например, предсказать погоду на месяц на основе метеорологических наблюдений за предыдущие 10 лет. На технологиях машинного обучения построены рекомендательные алгоритмы на стриминговых платформах вроде Кинопоиска и Яндекс Музыки. Чтобы предлагать пользователям контент, который с наибольшей вероятностью им понравится, программы обрабатывают данные о прослушиваемых треках и просматриваемых фильмах и на их основе подбирают рекомендации.

Для машинного обучения используют модели — программы, которые основаны на алгоритмах, например деревья решений и линейная регрессия. В модель загружают большие данные и запускают обучение: программа анализирует информацию и работает с ней по заданному алгоритму.

Deep Learning, или DL (с англ. «глубокое обучение») — это более сложный вид машинного обучения. В его основе нейронные сети — математические модели со множеством элементов: узлов и слоёв. Для глубокого обучения нужно ещё больше данных, чем для машинного. Но и в результате система может решать более сложные задачи. Например, распознавать голоса и объекты на изображениях, анализировать текст и генерировать ответы на запросы пользователей. Технологии глубокого обучения использовали для создания, например, ChatGPT, YaGPT и Midjourney.

Для обучения модели машинного обучения специалисты вручную выделяют признаки, по которым алгоритмы дальше классифицируют данные, и присваивают признакам вес — значимость. Это называется «разметка данных». В процессе глубокого обучения нейросети самостоятельно находят похожие признаки в больших данных и используют их для классификации

Где применяется Data Science

Специалисты по Data Science работают в разных областях. Вот некоторые из них:

● Медицина
Дата-сайентисты работают над системами, которые помогают врачам ставить диагнозы пациентам по результатам их анализов. Модели таких систем обучают на основе большого количества медицинских данных: рентгеновских снимков, данных лабораторных исследований, МРТ и КТ. Затем системы внедряют в медицинские учреждения. Технологии автоматизируют рутинную работу врачей: им не нужно тратить время на изучение снимков, системы подскажут, на что обратить внимание. Это ускоряет постановку диагноза и начало лечения.

● Бизнес
Методы науки о данных помогают компаниям решать много разных задач. Например, строить финансовые прогнозы, управлять рисками, оценивать возможные инвестиции, анализировать рынок, конкурентов, поведение пользователей и даже находить лучшие маршруты для перевозки товаров.

● Промышленность
Дата-сайентисты помогают контролировать качество продукции, следить за техническим состоянием оборудования, вовремя выявлять аномалии в его работе, оптимизировать производственные процессы. Например, специалисты Yandex Data Factory создали для крупного металлургического завода модель, которая даёт рекомендации по добавлению примесей в процессе плавки стали.

● Информационная безопасность
Алгоритмы машинного обучения и большие данные применяют для распознавания кибератак и отслеживания несанкционированного доступа к данным. Обученные на больших данных модели могут выявлять различные отклонения. Например, непривычное поведение пользователя в сети, причиной которого может быть взлом аккаунта. Модели помогают специалистам по информационной безопасности оперативно узнавать о возможных проблемах. Ещё методы Data Science используют для поиска ошибок в системах, которые делают их уязвимыми для взлома.

Основные этапы работы с данными

В крупных компаниях проект Data Science часто реализует большая команда из разных IT-специалистов. Дата-инженеры, аналитики данных и дата-сайентисты подключаются на разных этапах работы. В среднем и малом бизнесе обычно ищут специалиста-универсала.

Независимо от размера компании и проекта дата-сайентисту нужно последовательно решить несколько рабочих задач до того, как построить модель

Условно работу над проектом Data Science можно разделить на четыре больших этапа:

1. Составить требования к данным
Сначала определяют цель проекта. Например, компании нужно прогнозировать спрос на товары: когда и что покупают чаще. Это позволит не закупать у поставщиков больше, чем получится продать, и так снизить затраты.

Чтобы понять, какие данные помогут в достижении цели, важно изучить предметную область: рынок, конкурентов, организацию работы компании. Далее требования к данным собирают в техзадание для заказчика.

2. Подготовить данные
Допустим, дата-сайентисту передали данные о заказах за предыдущие 10 лет. Теперь нужно убедиться, что они подходят для обучения модели.

Данные чистят от ошибок, например продублированных значений, пропусков, опечаток и аномалий. Проводят разведочный анализ данных, или EDA (сокр. от Exploratory data analysis), — ищут закономерности и отклонения, связи и зависимости между переменными, чтобы учесть их при обучении модели. Для этого используют различные методы, например факторный, корреляционный и кластерный анализ.

3. Найти решение
Исходя из задачи, нужно подобрать подходящий подход для её решения. На этом этапе нужны знания о том, с какими данными и как работают разные модели машинного обучения, какой результат дают.

Например, линейная регрессия предскажет спрос на товар. Но только если между факторами, которые влияют на этот спрос, линейная связь. Если это не так — лучше использовать иные модели. Можно сразу выбрать несколько моделей, чтобы протестировать их и сравнить результаты.

После выбора подхода формируют выборку, на которой будет обучаться модель.

4. Построить модель
На этом этапе строят и обучают модели. Затем проверяют корректность работы на небольшом количестве реальных данных. Если модель не сработает, корректируют параметры обучающей выборки или вообще выбирают новую модель и формируют другую выборку данных.

Несмотря на сложности работы в Data Science, это интересная область знаний. Освоив её, можно хорошо зарабатывать, решать интересные задачи и влиять на процессы в компаниях.

Совет эксперта

Николай Шавлюго

Мир, в котором мы живём и работаем, становится всё более динамичным. А значит, более быстрыми должны быть и принимаемые решения в любых направлениях бизнеса. Но при этом не должно расти количество ошибок. Поэтому два важнейших момента в современной бизнес-реальности — скорость и точность решения. Специальность Data Science — на 100% об этом.

Дата-сайентист сможет помочь менеджменту компании эффективнее вести дела. Поэтому эта профессия не перестаёт и не перестанет быть востребованной. Она подойдёт тем, кому нравится улучшать и одновременно работать с цифрами.

Статью подготовили: