Визуализация данных с использованием Seaborn
Визуализация данных с использованием Seaborn
Рассказываем, как создавать сложные графики с помощью библиотеки Seaborn.
Seaborn — это библиотека для создания статистических графиков на Python. Она построена на основе библиотеки Matplotlib и тесно интегрирована со структурами данных из Pandas. Seaborn помогает с минимальными усилиями создавать сложные статистические диаграммы — например, коробчатые и виолончельные диаграммы, гистограммы, диаграммы рассеяния и многое другое. Подробнее о возможностях библиотеки расскажем ниже.
Визуализировать данные на уровне кода учат на курсе «Аналитик данных». За 7 месяцев студенты изучают языки программирования, учатся проводить статистические тесты, проверять гипотезы на практике. После обучения выпускники получат десять кейсов для портфолио и диплом о профессиональной переподготовке.
Библиотека Seaborn предоставляет множество возможностей для визуализации данных и анализа. Например, с её помощью можно применять различные стили и цвета, визуализировать временные графики и т. д. Вот основные возможности Seaborn:
Преимущества и недостатки библиотеки
Seaborn можно установить с помощью пакетного менеджера pip. Для этого откройте командную строку и выполните команду pip install seaborn. Matplotlib, NumPy и Pandas устанавливаются автоматически вместе с Seaborn.
Теперь можно проверить работу Seaborn. Для примера загрузим простой набор данных. Вот такая рассеянная диаграмма получится:
Seaborn применяют для создания и визуализации графиков. Они могут иметь разную форму и цвет. Покажем, как это выглядит на практике.
● Статистическая графика. Seaborn позволяет переключаться между различными визуальными представлениями с использованием последовательного API, ориентированного на набор данных. Для этого применяется relplot () — функция, которая предназначена для визуализации множества различных статистических отношений. Она имеет удобный дочерний параметр, который позволяет легко переключаться на альтернативное представление.
● Статистическая оценка. Чаще всего нас интересует среднее значение одной переменной в зависимости от других переменных. Многие функции Seaborn автоматически выполнят статистическую оценку, необходимую для ответа на эти вопросы. Вот пример кода и результат:
● Распределение представлений. Функция Seaborn Displot () поддерживает несколько подходов к визуализации распределений. К ним относятся классические методы (гистограммы) и вычислительные подходы (оценка плотности ядра). Вот пример кода и результата с применением Seaborn Displot ():
● Графики для категориальных данных. Специализированные типы графиков в Seaborn ориентированы на визуализацию категориальных данных. К ним можно получить доступ через функцию Catplot (). Эти графики имеют разный уровень детализации. Для примера отобразим каждое наблюдение, построив точечный график, который регулирует положение точек вдоль категориальной оси. Сделаем так, чтобы точки не перекрывались:
● Многомерные представления сложных наборов данных. Некоторые функции Seaborn объединяют несколько видов графиков, чтобы быстро получить информативные сводки о наборе данных. Одна из них — jointplot () — фокусируется на одной взаимосвязи. Она отображает совместное распределение между двумя переменными, а также предельное распределение каждой переменной.
● Инструменты более низкого уровня для построения фигур. Эти инструменты работают путём объединения функций построения на уровне осей с объектами, которые управляют расположением фигуры, связывая структуру набора данных с сеткой осей. Оба элемента — это часть общедоступного API. Их можно использовать напрямую для создания сложных фигур. Для этого нужно добавить несколько строк кода.
● Чёткие и гибкие настройки. Seaborn создаёт полную графику с помощью одного вызова функции. Её функции автоматически добавляют информативные метки осей и условные обозначения, которые объясняют семантические отображения на графике.
Во многих случаях Seaborn также выбирает значения по умолчанию для своих параметров, основываясь на характеристиках данных. Например, в графиках выше использовались различные оттенки (синий, оранжевый и иногда зелёный). Они нужны для представления различных уровней категориальных переменных, присвоенных оттенку. При отображении числовой переменной некоторые функции переключаются на непрерывный градиент.
Читать также: