Анализ данных  •  20 мая 2022  •  5 мин чтения

С чем работает аналитик данных: 10 популярных инструментов

В статье рассказываем о необходимых и популярных инструментах, которые нужны для работы аналитику данных. Вместе с продуктовым аналитиком Павлом Пляскиным разобрались в типах инструментов и особенностях их работы.
Нас окружает много данных: контакты в телефоне, список покупок, фотоальбомы, плейлисты, задачи по работе. А ещё каждую секунду в мировом киберпространстве передаются тысячи терабайт данных. Часть из них пока не обработана и не представляет собой ценной информации. Чтобы данные стали полезными, их нужно собрать и проанализировать. Этим занимается аналитик данных.

Данные важны для разных сфер бизнеса, науки, образования, медицины, потому что помогают принимать решения, планировать действия. Например, в торговле анализ данных поможет понять, какой товар будет популярен в следующем месяце, на каком этапе покупатели не оплачивают «Корзину» в интернет-магазине, как расположить товары, чтобы вызвать наибольший интерес покупателей. Анализ данных в производстве и промышленности поможет выбрать оптимальные каналы сбыта, спрогнозировать продажи или износ оборудования.

Какой бывает аналитика

В зависимости от цели, которой нужно добиться в процессе анализа данных, выделяют несколько основных видов аналитики.

Продуктовая аналитика. Нужна, чтобы улучшать продукт. Продуктовая аналитика собирает данные, которые помогают изучать поведение пользователей во время их взаимодействия с продуктом. Например, производителю важно знать, как часто пользуются его продуктом, какие проблемы при этом возникают, какую пользу от использования получает клиент.

Маркетинговая аналитика. Нужна, чтобы оценивать эффективность маркетинговых и рекламных кампаний. Такая аналитика собирает данные из рекламных каналов и CRM. С её помощью определяют, с какой рекламной кампании пришёл пользователь, купил продукт или нет, сделал это сразу или через какое-то время и т. д. Работа с данными маркетинговой аналитики помогает понять, почему пользователи покупают или не покупают продукт, какой бюджет нужен для рекламной кампании, что нужно изменить на сайте, в работе отдела продаж или логистике.

BI-аналитика (Business Intelligence-аналитика). Нужна, чтобы собирать, хранить, анализировать, обрабатывать и наглядно представлять все данные, которые есть в компании. BI-аналитика помогает собирать данные из разных источников, разрабатывать и подтверждать гипотезы, моделировать возможные решения. Компании, которые используют BI-аналитику, могут анализировать операционные расходы, прогнозировать доходы, сегментировать целевую аудиторию по разным признакам и т. д.

Данные, которые используют для анализа, невозможно собирать, хранить и обрабатывать вручную, поэтому аналитики используют специальные инструменты.

Решайте задачи с помощью машинного обучения
Попробуйте себя в роли специалиста по Data Science: находите неочевидные закономерности в данных, стройте гипотезы, обучайте алгоритмы. Начните курс с бесплатной вводной части.

Инструменты аналитики

Чтобы решать аналитические задачи, специалисты используют разное программное обеспечение и приложения. Все инструменты аналитика делятся на несколько типов в зависимости от того, для какого этапа решения задачи они предназначены.

Для сбора и хранения данных. В любой компании есть своя база данных. В одной это могут быть таблицы Excel, в другой — серьёзные решения типа Oracle или MySQL. Задача этих инструментов бизнес-анализа — хранить большие объёмы данных и быстро извлекать их.

Для анализа данных. Чтобы собранные данные не лежали мёртвым грузом, а работали, их нужно доставать из базы данных и анализировать по определённым критериям с помощью различных программ. Один из самых популярных инструментов для аналитики данных — Jupyter Notebook.

Для визуализации данных. Информацию, которую получили после анализа данных, нужно представить в удобном и понятном виде. Чтобы создавать наглядные графики и отчёты, используют программы и сервисы для визуализации. К простым относятся Power Point или Miro. Более сложные инструменты работы с аналитикой — Tableau, Power BI.

Информацию, которую получили в ходе анализа данных, удобно изучать на дашбордах — интерактивных панелях с графическим интерфейсом
Для прогнозирования данных. Такие инструменты нужны, чтобы на основании прошлого опыта компании могли принимать успешные решения в будущем, создавать модели поведения клиентов, составлять прогнозы ежедневного спроса определённой группы товаров и т. д. Чтобы создавать достоверные прогнозы, специалисты используют ключевые инструменты аналитиков: языки программирования Python, R и другие.

Инструменты и программы для аналитики данных бывают бесплатные и коммерческие. Вот чем они отличаются.

Бесплатные инструменты анализа данных. Имеют открытый исходный код, а апгрейд до платных версий не обязателен. Это значит, что любой специалист может расширять возможности инструмента, изменяя исходный код. В роли службы поддержки обычно выступает сообщество пользователей. Инструменты с открытым исходным кодом используют и стартапы, и крупные компании, потому что по уровню возможностей эти программы часто не уступают платным продуктам.

Браузерная версия Jupyter Notebook имеет открытый исходный код — её можно использовать бесплатно
Коммерческие инструменты бизнес-аналитики. Это программное обеспечение с закрытым исходным кодом. Эти инструменты нельзя изменить, и обычно они дорого стоят. Зато вся поддержка, обучение и устранение неполадок целиком лежит на разработчике программного продукта.
Как стать аналитиком данных
Бесплатный гайд для начинающих: какие задачи решает и сколько времени тратит на обучение аналитик данных.

Какими инструментами должен владеть аналитик данных

Основные инструменты аналитика помогают ему собирать, обрабатывать, анализировать и интерпретировать данные. Несмотря на большое количество сервисов и программного обеспечения, на практике специалист использует в работе 3–4 ключевых инструмента. Их выбор зависит не только от знаний и опыта аналитика, но и от того, с чем уже работает компания. Например, если бизнес использует Tableau — дорогой инструмент, — аналитику придётся работать с ним, даже если он привык работать в Power BI. А вот в плане написания кода специалист свободен в выборе и может использовать любой язык программирования.
Топ-10 основных инструментов в работе аналитика
Мы выбрали самые распространённые инструменты дата-аналитика, которыми владеют практически все специалисты. Программ, технологий и приложений гораздо больше, но мы не рекомендуем гнаться за количеством освоенных инструментов. Важнее понимать, что можно сделать с помощью той или иной технологии и программы.
SQL и разновидности
SQL (Structured Query Language) — это специальный язык, который формирует запросы к базе данных по определённой структуре. С его помощью аналитик «достаёт» данные и затем обрабатывает их с помощью другого, более гибкого языка программирования, например Python.

У SQL есть разновидности. Например, система управления базами данных MySQL, в которой можно хранить любые данные: контакты клиентов, карточки товаров, информацию о дате публикации материалов и т. д. PostgreSQL — более сложная система, которая подходит для управления большими базами данных и обработки сложных запросов, например в финансовой сфере, промышленности, крупном ретейле. SQL и его разновидности — это инструменты с открытым исходным кодом, поэтому доступны бизнесу любой сферы и формата.

Python и библиотеки
Это язык программирования и универсальный инструмент для работы с данными. У него простой синтаксис, поэтому писать код на нём получается быстрее, чем на других языках, например на Java. У Python есть встроенный интерпретатор, с помощью которого аналитики кодят и проверяют гипотезы в режиме реального времени.
Пример кода на Python с командами SQL
Чтобы пользователям было проще работать с этим инструментом, разработчики создали библиотеки — файлы с шаблонами. Они нужны, чтобы не набирать каждый раз один и тот же код, а вводить свои данные и получать результаты. Вот самые популярные библиотеки.

● Pandas. Самая простая библиотека, которая помогает анализировать неполные и неупорядоченные данные — именно такие и встречаются чаще всего. В библиотеке Pandas есть готовые методы для фильтрации, группировки и объединения данных.

● Matplotlib. Библиотека для визуализации, которая позволяет строить разные графики: от простых до гистограмм и круговых диаграмм.

● NumPy. Библиотека для обработки больших массивов данных и облегчения математических операций с массивами.

R

Ещё один язык программирования и конкурент Python. Этот инструмент создавался как язык для работы со статистическими данными. R — бесплатный продукт, который за плату можно интегрировать в другие инструменты, например Tableau или Excel. Сейчас язык не так популярен и чаще используется в сферах, где нужно анализировать большие объёмы статистических данных: в банках, науке, медицине, образовании.

Jupyter Notebook
Универсальный инструмент аналитика данных. Jupyter — это бесплатная интерактивная среда для языка Python. Здесь можно запускать код, получать результаты и продолжать с ними работать. С каждым фрагментом можно работать по отдельности и в любой очерёдности, например, написать одну функцию и проверить её работу без запуска всей программы. А ещё результаты можно выводить сразу после написания фрагмента кода, например построить промежуточный график, сохранить его как отдельный файл и затем использовать в презентации.

В Jupyter Notebook удобно работать вместе с коллегами. Здесь можно настроить совместный доступ и делиться с другими пользователями своими записными книжками — по почте, через Dropbox или Jupyter Notebook Viewer.

Jupyter Notebook открывается в браузере или устанавливается на компьютер. В первом случае программа работает чуть медленнее, зато ничего не нужно загружать на свой ПК
DBeaver
Универсальный инструмент для работы с различными базами данных (MySQL, PostgreSQL, Oracle и др). Программа для аналитики DBeaver умеет:

● администрировать базы данных: анализировать, экспортировать и импортировать данные, работать с пользовательскими сессиями;

● визуализировать данные;

● просматривать, редактировать, сортировать и фильтровать данные.

DBeaver — универсальный инструмент для работы с разными типа данных

DBeaver доступен в бесплатной версии — с открытым исходным кодом или для коммерческого использования. Программа устанавливается на компьютер и работает под разными ОС: Windows, MacOS, Linux
Talend
Это ETL-инструмент, который упрощает и оптимизирует процесс интеграции данных. ETL-технологии (Extract, Transform, Load) — «извлечение, преобразование и загрузка» — используют, когда нужно быстро объединить данные из нескольких источников. Например, сеть магазинов продаёт одежду онлайн и офлайн. Чтобы оценить эффективность продаж по двум источникам, нужно подгрузить данные из нескольких баз. Информацию можно скачивать по очереди из CRM, систем аналитики веб-трафика и других. А можно сделать это одновременно — с помощью Talend. Данные интегрируются, и их можно использовать для дальнейшего анализа.

Talend — инструмент с открытым исходным кодом, а значит, базовую версию программы можно использовать бесплатно.

Tableau, Power BI
Информацию, которую аналитик получает в результате анализа данных, нужно наглядно представить — в виде графиков, диаграмм, отчётов. Чтобы не делать это вручную, используют инструменты визуализации. Например, с помощью Tableau можно импортировать данные из любой базы данных и представить их в нужном виде. Tableau — дорогое удовольствие и доступно не каждой компании.
Один из рабочих экранов Tableau
Как альтернативу Tableau аналитики используют инструмент Microsoft — Power BI. Здесь десктопная версия доступна бесплатно. Power BI подходит для обработки большого массива данных, которые может забирать из MySQL, Google Analytics, CRM и других источников. Просматривать готовые отчёты удобно в мобильном приложении Power BI Mobile — есть версии для iOS и Android.

В Power BI Mobile можно оставлять комментарии, делать заметки и делиться отдельными графиками или диаграммами

Visual Studio Code
Популярный среди аналитиков инструмент, который помогает писать код. VSCode распознаёт синтаксис распространённых языков программирования и не даёт ошибиться при написании кода. С ним можно подключать любой питоновский интерпретатор, который установлен на компьютере, и сразу видеть, как этот код работает.

Аналитики любят VSCode за его простоту и удобство.

Здесь можно открывать файлы разного типа в одном окне, переключаться между разными редакторами и браузером — так получается работать быстрее и продуктивнее

У VSCode мощная поддержка сообщества Microsoft и много материалов на русском языке.

Пример рабочего окна в Visual Studio Code

Excel
Аналитика с помощью таблиц Microsoft всё ещё популярна в маленьких компаниях — для сбора и анализа небольшого объёма данных. А вот как инструмент визуализации Excel используют часто. Удобно экспортировать сюда результаты аналитики и строить здесь даже сложные графики и диаграммы.

Вместо Excel можно использовать Google Таблицы, например вести здесь бюджет компании.

Данные о каждой категории доходов и расходов будут представлены в виде наглядной диаграммы

SAS
Это комплексное решение, которое под одной оболочкой объединяет все технологии, о которых мы говорили выше. С его помощью обрабатывают и визуализируют данные, собирают отчёты, проводят расширенный анализ с использованием алгоритмов статистики и прогнозных моделей. SAS используют в больших компаниях, для которых в первую очередь важна безопасность клиентов и их данных и которые готовы за это платить.
Материал по теме:
4 инструмента быстрого и простого анализа данных в Microsoft Excel

Как и где изучить инструменты аналитики данных

Спрос на аналитиков данных с каждым годом растёт. В 2021 году на hh.ru работодатели разместили на 54% больше вакансий, чем в 2020-м. Сейчас по запросу «Анализ данных» на портале больше 20 тысяч предложений по всей России. Среди основных требований к соискателям — знание ключевых инструментов бизнес-аналитики: SQL, Python, Power BI или Tableau.

Тот, кто хочет стать аналитиком данных, может изучать технологии и программы самостоятельно: по книгам или видео в YouTube. Но это неудобно и не всегда эффективно: новые инструменты появляются быстрее, чем удаётся их освоить.

На аналитика данных учат в технических вузах на факультете искусственного интеллекта — потребуется минимум четыре года.

Освоить профессию с нуля можно и за более короткий срок. На курсе «Аналитик данных» в Яндекс Практикуме за 6 месяцев вы освоите Python, научитесь работать с SQL-запросами, создавать дашборды и анализировать показатели с помощью различных инструментов и программ.

Статью подготовили:

Павел Пляскин
Яндекс Практикум
Продуктовый аналитик, преподаватель курса «Аналитик данных»

Дайджест блога: ежемесячная подборка лучших статей от редакции

Поделиться 
Знакомство с IT: Бесплатный гид Практикума по профессиям
Tue Nov 28 2023 15:03:04 GMT+0300 (Moscow Standard Time)