Анализ данных  •  15 августа 2022  •  5 мин чтения

Для чего аналитику данных датасет и где его взять

Работа аналитика — находить закономерности в данных. С неопределёнными и неструктурированными данными делать это невозможно — они не подчиняются инструментам анализа и не позволяют обучать нейросети. Поэтому для работы аналитикам нужны уже подготовленные однозначные данные — датасеты.
Мария Ефимова
Яндекс Практикум
Ревьюер направления Data Analysis Латинской Америки
Лена Шпрингер
Яндекс Практикум
Редактор

Что такое датасет для анализа данных

Датасет (англ. dataset) — это обработанный и структурированный массив данных. В нём у каждого объекта есть конкретные свойства: признаки, связи между объектами или определённое место в выборке данных. Его используют, чтобы строить на основе данных гипотезы, делать выводы или обучать нейросети.

Для примера возьмём набор фотографий разных животных. Сам по себе этот набор — просто массив данных, его невозможно использовать для аналитики или обучения нейросети. Чтобы он стал датасетом, в нём должно быть однозначно прописано, какое конкретно животное изображено на фотографии и по каким признакам оно отличается от других животных.

Примитивно датасет можно представить в виде группировки по признакам
Данные в датасете могут быть разные, например:

● статистика покупок в магазине;

● географическое расположение офисов;

● демографические признаки населения;

● соответствие звуков аудиотексту;

● заболевания с конкретными симптомами.

Данных в датасете должно быть достаточно много, особенно если для анализа используется несколько признаков. Если нейросети нужно отличать кошек от собак, попугаев, лошадей и рыб, то сотни объектов для датасета не хватит. Понадобятся десятки и сотни тысяч фотографий. Если нужно спрогнозировать, что именно купит конкретный клиент, то понадобятся данные о демографии и покупках десятков тысяч других клиентов. Только так прогноз будет точным.

Два способа сбора датасета
● Вручную. Люди лично, без всякой автоматизации отсматривают объекты и описывают их признаки. Так создают обучающие датасеты из данных, которые изначально не структурированы. Например, именно так создают датасеты для распознавания изображений — люди смотрят фото и пишут, что конкретно на них изображено.

● Автоматически. Системы сбора информации сразу заполняют заранее подготовленную таблицу структурированными данными. Например, так можно собрать датасет о демографии клиентов магазина на основе анкеты, которую они заполняют на сайте.

На курсе Практикума «Аналитик данных» студенты учатся работать с датасетами: проверять их, анализировать и использовать в моделях машинного обучения.

Из чего состоит датасет

Датасет состоит из двух основных компонентов:

● Объект: фото, фрагмент аудио, покупатель, заболевание, название офиса.

● Характеристики объекта: конкретные признаки, связи с другими объектами, его местоположение.

Характеристики объекта обычно задают не словами, а цифрами. Например, нужно отметить пол покупателя. Это делают не буквами «М» и «Ж», а создают два признака «Мужской» и «Женский», и один могут обозначить как 0, а другой как 1.

Именно поэтому признаки часто могут иметь нулевые значения, и иногда их даже больше, чем единичных. Например, у нас есть человек и 100 вариантов городов, где он родился. Только в одном городе может стоять единица — а во всех остальных будут нули. Получается, что большая часть датасета часто пустая, и это нормально.

Чем больше в датасете для обучения объектов, тем лучше он отражает реальность, и тем более достоверной получается аналитика и обученные с её помощью нейросети.

Чем больше в датасете характеристик, тем он сложнее для анализа. Это даже называют «проклятием размерности». С ростом количества признаков сложность обработки датасета растёт не линейно, а по экспоненте, то есть очень быстро.

Виды датасетов

1. Простая запись

Это таблица, в строках которой расположены объекты, а в колонках — признаки. Явных связей между строками и столбцами нет, признаки просто соответствуют конкретным объектам. Чаще всего датасеты выглядят именно так.

Так может выглядеть фрагмент датасета в формате простой записи
2. Граф

Данные о связях между объектами, которые могут быть представлены визуально в виде схемы из объектов, соединённых стрелками. А могут быть в виде таблицы, где в строках и колонках указаны объекты, а в пересечениях — связи между ними.

Графы бывают структурированные и неструктурированные. У первых присутствуют либо отсутствуют соотношения между объектами. У вторых они могут быть направленные — например, первый объект соотносится со вторым, а второй с первым уже нет. Кроме того, у соотношений может быть разный вес. Например, первый объект отправил второму 10 сообщений — тогда вес этого соотношения равен 10.

Структурированный граф пользователей социальной сети в виде визуальной схемы
3. Упорядоченные записи

Здесь роль играет не соотношение объектов или их признаки, а конкретное расположение в таблице с данными, пространстве или времени.

Например, такой датасет для анализа данных может быть в виде таблицы, в которой главная информация — это расположение объекта.

Пример такого датасета — геном, где важно расположение каждого конкретного гена

Где искать датасеты

Датасет можно собрать самостоятельно, но это дорого, сложно, а часто и невозможно, если нет доступа к нужным данным. Поэтому лучше искать их в источниках.

Главное место для поиска — Google Dataset Search. Он позволяет по ключевому слову искать датасеты по всему миру. Много датасетов хранится на Kaggle — площадке для соревнований по машинному обучению. Придётся перебирать много нишевых наборов данных, но среди них можно найти полезные для бизнеса.

Примеры датасетов, открытых для использования
World Bank Open Data. Наборы данных о демографии и экономических показателях.

IMF Data. Датасеты о финансах и ценах на товары.

Google Trends. Данные о поисковой статистике и трендовых запросах.

xView. Большой набор воздушных снимков Земли с аннотациями.

Labelme. Большой датасет с уже размеченными изображениями.

Labelled Faces in the Wild. 13 тысяч размеченных изображений лиц.

HotspotQA Dataset . Датасет с вопросами-ответами для генерации ответов на часто задаваемые простые вопросы.

Berkeley DeepDrive BDD100k. Тысячи часов вождения для обучения автопилотов.

MIMIC-III. Обезличенные медицинские данные пациентов.

CREMA-D — датасет для распознавания эмоций по записи голоса.

Часто бывает так, что датасета по конкретному запросу не существует. Например, если речь про список клиентов конкретного магазина. В таком случае датасет может предоставить компания, либо его придется формировать самостоятельно: собирать данные и очищать их вручную или автоматически. Часто такие задачи отдают на аутсорс — есть компании, которая занимается подготовкой датасетов из сырых данных.

Совет от эксперта

Мария Ефимова
«Чтобы понять, как датасеты выглядят и что с ними делать, лучше всего взять и поработать с ними на практике. Например, зайти на Kaggle, выбрать интересный датасет и попробовать его проанализировать. Лучшее обучение — это практика».

Поделиться 
Wed Sep 21 2022 22:32:37 GMT+0300 (Moscow Standard Time)