Для примера возьмём набор фотографий разных животных. Сам по себе этот набор — просто массив данных, его невозможно использовать для аналитики или обучения нейросети. Чтобы он стал датасетом, в нём должно быть однозначно прописано, какое конкретно животное изображено на фотографии и по каким признакам оно отличается от других животных.
● статистика покупок в магазине;
● географическое расположение офисов;
● демографические признаки населения;
● соответствие звуков аудиотексту;
● заболевания с конкретными симптомами.
Данных в датасете должно быть достаточно много, особенно если для анализа используется несколько признаков. Если нейросети нужно отличать кошек от собак, попугаев, лошадей и рыб, то сотни объектов для датасета не хватит. Понадобятся десятки и сотни тысяч фотографий. Если нужно спрогнозировать, что именно купит конкретный клиент, то понадобятся данные о демографии и покупках десятков тысяч других клиентов. Только так прогноз будет точным.
● Автоматически. Системы сбора информации сразу заполняют заранее подготовленную таблицу структурированными данными. Например, так можно собрать датасет о демографии клиентов магазина на основе анкеты, которую они заполняют на сайте.
На курсе Практикума «Аналитик данных» студенты учатся работать с датасетами: проверять их, анализировать и использовать в моделях машинного обучения.
● Объект: фото, фрагмент аудио, покупатель, заболевание, название офиса.
● Характеристики объекта: конкретные признаки, связи с другими объектами, его местоположение.
Характеристики объекта обычно задают не словами, а цифрами. Например, нужно отметить пол покупателя. Это делают не буквами «М» и «Ж», а создают два признака «Мужской» и «Женский», и один могут обозначить как 0, а другой как 1.
Именно поэтому признаки часто могут иметь нулевые значения, и иногда их даже больше, чем единичных. Например, у нас есть человек и 100 вариантов городов, где он родился. Только в одном городе может стоять единица — а во всех остальных будут нули. Получается, что большая часть датасета часто пустая, и это нормально.
Чем больше в датасете для обучения объектов, тем лучше он отражает реальность, и тем более достоверной получается аналитика и обученные с её помощью нейросети.
Чем больше в датасете характеристик, тем он сложнее для анализа. Это даже называют «проклятием размерности». С ростом количества признаков сложность обработки датасета растёт не линейно, а по экспоненте, то есть очень быстро.
Это таблица, в строках которой расположены объекты, а в колонках — признаки. Явных связей между строками и столбцами нет, признаки просто соответствуют конкретным объектам. Чаще всего датасеты выглядят именно так.
Данные о связях между объектами, которые могут быть представлены визуально в виде схемы из объектов, соединённых стрелками. А могут быть в виде таблицы, где в строках и колонках указаны объекты, а в пересечениях — связи между ними.
Графы бывают структурированные и неструктурированные. У первых присутствуют либо отсутствуют соотношения между объектами. У вторых они могут быть направленные — например, первый объект соотносится со вторым, а второй с первым уже нет. Кроме того, у соотношений может быть разный вес. Например, первый объект отправил второму 10 сообщений — тогда вес этого соотношения равен 10.
Здесь роль играет не соотношение объектов или их признаки, а конкретное расположение в таблице с данными, пространстве или времени.
Например, такой датасет для анализа данных может быть в виде таблицы, в которой главная информация — это расположение объекта.
Датасет можно собрать самостоятельно, но это дорого, сложно, а часто и невозможно, если нет доступа к нужным данным. Поэтому лучше искать их в источниках. Главное место для поиска — Google Dataset Search. Он позволяет по ключевому слову искать датасеты по всему миру. Много датасетов хранится на Kaggle — площадке для соревнований по машинному обучению. Придётся перебирать много нишевых наборов данных, но среди них можно найти полезные для бизнеса.
● IMF Data. Датасеты о финансах и ценах на товары.
● Google Trends. Данные о поисковой статистике и трендовых запросах.
● xView. Большой набор воздушных снимков Земли с аннотациями.
● Labelme. Большой датасет с уже размеченными изображениями.
● Labelled Faces in the Wild. 13 тысяч размеченных изображений лиц.
● HotspotQA Dataset . Датасет с вопросами-ответами для генерации ответов на часто задаваемые простые вопросы.
● MIMIC-III. Обезличенные медицинские данные пациентов.
● CREMA-D — датасет для распознавания эмоций по записи голоса.
Часто бывает так, что датасета по конкретному запросу не существует. Например, если речь про список клиентов конкретного магазина. В таком случае датасет может предоставить компания, либо его придется формировать самостоятельно: собирать данные и очищать их вручную или автоматически. Часто такие задачи отдают на аутсорс — есть компании, которая занимается подготовкой датасетов из сырых данных.
Совет от эксперта
Читать также: