В кластерном анализе данных с пересекающимися кластерами один объект может принадлежать к двум и более кластерам, если у него совпадают нужные критерии.
Кластерный подход можно применять там, где есть массивы данных с разными признаками. При этом важно, чтобы существовали общие признаки, иначе кластеризовать данные просто не получится.
На кластеры можно разделить:
● Клиентов для анализа поведения отдельных клиентских групп.
● Конкурентов бизнеса для исследования рынка.
● Заболевания для изучения статистики выздоровления.
● Респондентов опроса для анализа мнений в разных группах людей.
● SEO-ключи для формирования тематик страниц сайта.
● Собранные файлы разных форматов для их удобной обработки.
Сфер применения гораздо больше, потому что кластеризацию можно применять практически к любым данным, которые нужно систематизировать и структурировать.
У деления данных на кластеры для анализа четыре основные цели:
1. Понимание.
Деление разрозненных данных на группы помогает аналитику понять, какие именно данные собраны. Потом их проще будет обрабатывать — например, применять к разным кластерам конкретные методы анализа.
2. Выявление аномалий.
После кластеризации могут появиться отдельные данные, которые не относятся ни к одному из кластеров. Их нужно изучить, чтобы понять, ошибка это или какой-то интересный феномен.
3. Расширение.
Иногда при сборе информации у каких-то данных больше признаков, а у каких-то меньше. Кластеризация поможет предположить отсутствующие признаки у других элементов кластера. Например, известно, что клиенты в кластере «мужчины» проводят на сайте в среднем 15 минут. Если в кластере появится новый человек с неизвестным временем пребывания на сайте, можно будет предположить, что для него оно тоже равно 15 минутам.
4. Сжатие.
Если данных слишком много, можно поделить их на кластеры, усреднить и оставить по одному объекту на каждый кластер. Это позволит в дальнейшем при анализе использовать меньше мощности.
Часто кластеризация данных — это не непосредственно анализ, а предварительный этап. Она облегчает использование других методов анализа. Подробнее о них можно узнать на курсе «Аналитик данных».
Конкретные методы кластерного анализа обычно не выделяют. Его проводят с помощью разных инструментов и алгоритмов, выбор которых сильно зависит от набора данных, задачи кластеризации, заданного условия анализа.
Для кластеризации данных можно использовать следующие методы:
● Нисходящие алгоритмы. Объекты сначала помещают в один кластер, а потом постепенно разделяют на кластеры всё меньше и меньше.
● Восходящие алгоритмы. Каждый объект назначают кластером, а потом постепенно объединяют их до достижения нужной степени дробления.
● Алгоритмы квадратичной ошибки. Они строят кластеры на основе математической формулы среднеквадратичной ошибки. Самый популярный из таких алгоритмов — метод k-средних, который создаёт нужное число кластеров, максимально удалённых друг от друга.
● Системы искусственного интеллекта, которые позволяют разделить объекты с помощью нейронных сетей. Чаще всего применяются, когда число кластеров неизвестно.
● Логический подход, когда данные делят по кластерам с помощью дерева решений.
Также данные всегда можно разбить по кластерам вручную. Если известен конкретный признак, который различается у разных кластеров, можно разделить все полученные данные по нему. Как в примере с возрастом покупателей, когда возраст известен и можно настроить алгоритмы так, чтобы они поделили весь массив данных на группы по возрастам.
Александр Сушков
Кластеризация — очень полезный инструмент, особенно в области анализа данных для рекламы. Когда нужно направить затраты в нужное русло, чтобы за минимальные деньги привлечь максимум клиентов, метод разбиения на кластеры поможет определить это самое «нужное русло». Например, выделить категорию клиентов, которым реклама необходима, и привлечь их как покупателей. Если направлять рекламу всем клиентам, то затраты будут намного выше.
Читать также: