Lakehouse — это архитектурный подход к построению аналитической платформы. Он объединяет свойства Data Lake и Data Warehouse. Расскажем, какие именно:
Простыми словами, с помощью Lakehouse можно хранить неструктурированные данные в дешёвом хранилище. При этом управлять ими и анализировать их так же удобно и надёжно, как в классическом хранилище данных. Подробнее о свойствах и отличиях Lakehouse от Data Lake и Data Warehouse поговорим ниже.
Как это работает на практике? Сами данные лежат в обычных файлах и папках, например в облачном хранилище вроде S3 или HDFS. «Поверх» этих файлов строится специальный табличный слой. Этот слой превращает хаотичные файлы в аккуратные таблицы с версиями и историей изменений.
Lakehouse изучают на курсе «Инженер данных с нуля». За 11 месяцев студенты учатся разрабатывать архитектуру данных — даже без опыта в IT. После обучения выпускники получают диплом о профессиональной переподготовке.
Есть несколько принципов, по которым работает Lakehouse. Расскажем о них подробнее.
Data Warehouse — это система для структурированных данных с заранее определёнными схемами, оптимизированная под BI и отчётность. Data Lake, напротив, хранит данные в исходном формате и может принимать структурированные, полуструктурированные и неструктурированные данные, включая логи, clickstream и sensor data. Lakehouse пытается объединить эти модели, добавляя к гибкому хранилищу lake функции governance, structuring, reporting и SQL-аналитики.
У этого подхода есть много сильных преимуществ, почему он и стал популярным в индустрии. Например, Lakehouse даёт более свежие данные и меньшее число их копий. Расскажем подробнее об основных преимуществах.
Помимо этого, у Lakehouse более гибкая экономика. Хранение в object storage обычно дешевле хранения в полноценном DWH. Compute можно масштабировать отдельно под конкретную нагрузку. Это выгодно, когда объём данных большой, а интенсивность запросов неравномерная.
Помимо плюсов, у Lakehouse есть свои минусы. Основная сложность: если не уметь управлять данными, в Lakehouse не будет смысла. Расскажем подробнее об этом и о других сложностях.
Поэтому разворачивание этой архитектуры должно быть оправдано. Иначе будут потрачены ресурсы, время, а получено только хайповое название и отсутствие результата. Как понять, нужен Lakehouse или нет, расскажем ниже.
Lakehouse применяют везде, где нужен единый доступ к разнородным данным без их многократного копирования. На одной платформе одновременно работают и с сырыми событиями, и с очищенными витринами, и с ML-датасетами. Расскажем об этом подробнее.
Во всех перечисленных отраслях Lakehouse избавляет от необходимости поддерживать отдельные системы для разных типов нагрузки. Компании получают единый источник данных для batch-аналитики, real-time-отчётов и обучения моделей, при этом сохраняется воспроизводимость и контроль доступа. Поэтому Lakehouse становится не модным экспериментом, а прагматичным выбором для data-платформ в самых разных сферах.
Lakehouse изучают на курсе «Инженер данных с нуля». За 11 месяцев студенты учатся разрабатывать архитектуру данных — даже без опыта в IT. После обучения выпускники получают диплом о профессиональной переподготовке.
В разных компаниях могут быть разные сложности. Lakehouse как инструмент не может быть универсален и подходить всем. Lakehouse нужен, если у компании уже есть или ожидается большой объём разнородных данных, много потребителей данных, одновременно нужны BI и ML, есть потребность в открытых форматах, а стоимость и сложность копирования между Data Lake и DWH становятся заметной проблемой.
Lakehouse особенно уместен, когда данные должны использоваться разными движками и командами. Например, инженеры обрабатывают данные в Spark, аналитики читают их через SQL, ML-команда строит features, а бизнес получает витрины и dashboards. В такой ситуации единый табличный слой с catalog, governance и открытыми форматами даёт архитектурный выигрыш.
Lakehouse менее оправдан, если компания готовит только классическую отчётность на ограниченном объёме структурированных данных. В этом случае обычный DWH или managed аналитическая БД часто проще, быстрее в запуске и дешевле в сопровождении. Также применение Lakehouse может быть преждевременным, если нет зрелых процессов data ownership, CI/CD для пайплайнов, мониторинга качества, контроля схем и понимания SLA.
Читать также: