Big Data Mapping: что такое маппирование больших данных
Big Data Mapping: что такое маппирование больших данных
Объясняем простыми словами, что такое маппинг данных, где он применяется, как происходит процесс маппирования и какие инструменты в этом помогут.
Маппинг данных (от англ. data mapping) — это процесс, который позволяет установить соответствие между несколькими группами данных или структурами. Он используется для преобразования данных из одного формата в другой, например при интеграции различных систем или переносе данных из одной базы в другую.
Чтобы простыми словами объяснить, что такое маппинг данных, для начала нужно разобраться в архитектуре данных. Она бывает двух типов:
Маппирование чаще всего применяется именно в распределённой архитектуре, потому что даже если в компании есть стандарты написания кода, он всё равно может различаться у команд разработчиков каждого микросервиса. К примеру, программисты могут по-разному определять переменные или классы. Это значит, что данные будут собираться в разном формате и их нужно привести в один вид с помощью data mapping.
Маппинг работает с разными свойствами данных:
Обычно созданием структуры маппинга занимается системный аналитик. Его задача — описать модель данных, по которой будет происходить процесс. Он продумывает, из каких систем, с какой периодичностью загружается информация, какие форматы и поля используются, как их унифицировать. Когда речь идёт о больших данных, специалист разрабатывает Big Data mapping, который позволяет собрать и сопоставить данные от разных проектов и команд в одну базу, например в хранилище данных, или в единое файловое хранилище — озеро данных.
Научиться настраивать маппинг можно на курсе «Системный аналитик». Занятия помогут изучить методы моделирования процессов сбора, загрузки и преобразования данных, освоить User Story, Job Story, Postman, GUI и другие полезные инструменты.
Маппинг данных используется в различных областях, где необходимо преобразовать информацию из одного формата в другой. Вот несколько примеров:
Возьмём для примера ситуацию, когда перед аналитиком данных встаёт задача понять, почему снизилось количество регистраций пользователей в приложении. В нём есть сервис идентификации пользователей, система поддержки, которая фиксирует обращения по проблемам, в том числе с регистрацией, а также интеграция с общим календарным рейтингом, где пользователи оценивают продукцию и взаимодействие с компанией. Таким образом, системному аналитику нужно собрать данные из трёх разных баз, чтобы понять, почему пользователи не смогли зарегистрироваться, обратились ли они в клиентский сервис и получилось ли решить проблему. Для этого нужно три доступа к базам данных или их репликам. А если учесть, что информация хранится в разной форме, потому что сервисы писали разные разработчики, использующие свой синтаксис и логику, задача становится крайне сложной. Упросить её поможет Big Data mapping, который позволит сопоставить информацию из разных баз в едином формате.
Как правило, разработкой структуры Big Data mapping занимаются системный аналитик и инженер данных. Процесс проходит в несколько этапов:
В зависимости от компании и объёма данных в маппировании используют разные инструменты. Вот несколько примеров:
Совет эксперта
Читать также: