Анализ данных  •  22 декабря  2022  •  5 мин чтения

Что такое кластерный анализ и как аналитики с его помощью группируют данные

Часто данные представляют собой большой массив разрозненной информации. Для их группировки и последующего анализа используют специальный метод — кластеризацию.

Что такое кластерный анализ

Кластерный анализ, или кластеризация, — это разделение большой группы объектов на несколько поменьше. Каждая малая группа называется кластером. Кластер формируется на основе какого-то конкретного критерия. Это может быть любая особенность объекта: размер, форма, категория, вид. Внутри одного кластера объекты могут различаться по другим критериям, но хотя бы по одному они должны быть схожи.
Разрозненное множество объектов кластеризовано по цвету — при этом не важно, что формы и размеры объектов внутри кластера разные
Возьмём для примера реальные данные посетителей онлайн-магазина. У каждого из них есть профиль, в котором указан возраст. Можно применить к ним алгоритм кластерного анализа и поделить посетителей на кластеры по возрасту: до 18 лет, от 18 до 25 лет, от 26 до 30 лет, от 31 до 40 лет, от 41 до 50 лет, от 51 года и старше. Потом эти кластеры можно будет использовать для последующего анализа: что чаще покупают люди конкретного возраста, сколько времени проводят в онлайн-магазине, какова общая сумма их покупок.
До кластеризации табличные данные представлены вперемешку. После — они более наглядны и позволяют удобно оперировать отдельными кластерами
Внутри кластера можно проводить кластеризацию ещё раз, то есть выделять подкластеры. Это позволит сформировать иерархическую структуру, в которой каждому объекту соответствуют несколько кластеров, от меньшего к большему.

В кластерном анализе данных с пересекающимися кластерами один объект может принадлежать к двум и более кластерам, если у него совпадают нужные критерии.

Мем о достижении успеха — пример пересекающихся кластеров. Каждое дело относится к какой-то категории, но у некоторых критерии совпадают
Материал по теме:
Когортный анализ: зачем нужен бизнесу и как его проводить

Сферы применения

Кластерный подход можно применять там, где есть массивы данных с разными признаками. При этом важно, чтобы существовали общие признаки, иначе кластеризовать данные просто не получится.

На кластеры можно разделить:

● Клиентов для анализа поведения отдельных клиентских групп.
● Конкурентов бизнеса для исследования рынка.
● Заболевания для изучения статистики выздоровления.
● Респондентов опроса для анализа мнений в разных группах людей.
● SEO-ключи для формирования тематик страниц сайта.
● Собранные файлы разных форматов для их удобной обработки.

Сфер применения гораздо больше, потому что кластеризацию можно применять практически к любым данным, которые нужно систематизировать и структурировать.

Цели и задачи кластеризации

У деления данных на кластеры для анализа четыре основные цели:

1. Понимание.
Деление разрозненных данных на группы помогает аналитику понять, какие именно данные собраны. Потом их проще будет обрабатывать — например, применять к разным кластерам конкретные методы анализа.

2. Выявление аномалий.
После кластеризации могут появиться отдельные данные, которые не относятся ни к одному из кластеров. Их нужно изучить, чтобы понять, ошибка это или какой-то интересный феномен.

3. Расширение.
Иногда при сборе информации у каких-то данных больше признаков, а у каких-то меньше. Кластеризация поможет предположить отсутствующие признаки у других элементов кластера. Например, известно, что клиенты в кластере «мужчины» проводят на сайте в среднем 15 минут. Если в кластере появится новый человек с неизвестным временем пребывания на сайте, можно будет предположить, что для него оно тоже равно 15 минутам.

4. Сжатие.
Если данных слишком много, можно поделить их на кластеры, усреднить и оставить по одному объекту на каждый кластер. Это позволит в дальнейшем при анализе использовать меньше мощности.

Часто кластеризация данных — это не непосредственно анализ, а предварительный этап. Она облегчает использование других методов анализа. Подробнее о них можно узнать на курсе «Аналитик данных».

Повышайте прибыль компании с помощью данных
Научитесь анализировать большие данные, строить гипотезы и соберите 13 проектов в портфолио за 6 месяцев, а не 1,5 года. Сделайте первый шаг к новой профессии в бесплатной вводной части курса «Аналитик данных».

Методы кластеризации

Конкретные методы кластерного анализа обычно не выделяют. Его проводят с помощью разных инструментов и алгоритмов, выбор которых сильно зависит от набора данных, задачи кластеризации, заданного условия анализа.

Для кластеризации данных можно использовать следующие методы:

Нисходящие алгоритмы. Объекты сначала помещают в один кластер, а потом постепенно разделяют на кластеры всё меньше и меньше.

Восходящие алгоритмы. Каждый объект назначают кластером, а потом постепенно объединяют их до достижения нужной степени дробления.

Алгоритмы квадратичной ошибки. Они строят кластеры на основе математической формулы среднеквадратичной ошибки. Самый популярный из таких алгоритмов — метод k-средних, который создаёт нужное число кластеров, максимально удалённых друг от друга.

Системы искусственного интеллекта, которые позволяют разделить объекты с помощью нейронных сетей. Чаще всего применяются, когда число кластеров неизвестно.

Логический подход, когда данные делят по кластерам с помощью дерева решений.

Также данные всегда можно разбить по кластерам вручную. Если известен конкретный признак, который различается у разных кластеров, можно разделить все полученные данные по нему. Как в примере с возрастом покупателей, когда возраст известен и можно настроить алгоритмы так, чтобы они поделили весь массив данных на группы по возрастам.

Совет эксперта

Александр Сушков
Кластеризация — очень полезный инструмент, особенно в области анализа данных для рекламы. Когда нужно направить затраты в нужное русло, чтобы за минимальные деньги привлечь максимум клиентов, метод разбиения на кластеры поможет определить это самое «нужное русло». Например, выделить категорию клиентов, которым реклама необходима, и привлечь их как покупателей. Если направлять рекламу всем клиентам, то затраты будут намного выше.

Статью подготовили:

Александр Сушков
Яндекс Практикум
Преподаватель и автор курсов, аналитик данных, эксперт SQL
Яндекс Практикум
Редактор

Дайджест блога: ежемесячная подборка лучших статей от редакции

Поделиться
Знакомство с IT: Бесплатный гид Практикума по профессиям
Tue Apr 23 2024 11:03:31 GMT+0300 (Moscow Standard Time)