Lakehouse結合了資料湖和資料倉儲的優勢,使資料團隊能迅速運用數據而無需跨多個系統查詢。這不僅確保數據科學、機器學習和商業分析專案擁有最新、完整的數據,還巧妙地克服了資料湖和資料倉儲之間的差異,提供了結構化數據和原始資料的最佳解決方案,從而解決了傳統二級資料架構中的問題。
Databricks Lakehouse的出現,將資料湖的彈性、成本效益及大規模的特性與資料倉儲的ACID交易和數據控管完美結合,實現了商業智慧(BI)和機器學習(ML)的全面應用。其核心在於保留資料於可大規模調整的雲端物件儲存體中,同時使用開放原始碼的資料標準,確保使用者能夠隨時隨地使用資料。
在許多企業應用中,Lakehouse能夠迅速處理和結合多種異質和複雜的資料。例如,在下面這個實作示範中,我從不同格式的資料來源:交易資料(csv)、GA logs (parquet)和PageSpeed Insights (json)三種資料來源中,結合了資料湖的優勢,處理了複雜的套嵌格式,最終產生了一個日常營運報表,先簡單介紹一下要整合的資料,包括以下三種:
圖1.將異質的資料上傳到Databricks平台
圖片來源:本文作者操作截圖
首先,從三個不同的資料來源中提取資料,並將其存儲為Delta表格。選擇使用Delta格式的主要優勢在於它具有ACID交易功能、高效的資料壓縮以及更快速的查詢性能。當資料成功存儲為Delta表後,可以輕鬆地使用spark.read.table方法來讀取這些資料,並將其轉換成Spark DataFrame的格式,便於資料整合。經過這些步驟後,成功地將三個異質來源的資料整合成一份完整的單日報告,充分展現了Delta Lake在簡化複雜資料工作流程上的強大能力。
圖2.將三種資料整合成一個報表
圖片來源:本文作者操作截圖
在最近的Data+AI Summit 2023上,Databricks發表了一系列引人注目的Lakehouse增強功能。首先,「Lakehouse Federation」的出現讓組織在不同的數據平台,如MySQL、Amazon Redshift、Snowflake等上,能夠建立一個開放、高效且安全的資料網狀結構,實現資料無論位於何處都能被輕鬆查詢、管理和監管的目的。
接著,「Governance for AI」使得資料和AI資源在同一平台下統一管理,包括從資料、特徵到模型的查看、版本控制和跟踪。「Volumes in Unity Catalog」打破了只管理表格式數據的局限,允許使用者方便地管理如圖片和視頻等非表格式的數據。最後,「Lakehouse Monitoring」和「Lakehouse Observability」透過AI技術,為數據治理帶來前所未有的監視和診斷工具,助力組織主動識別並解決數據和AI模型中的問題。
Lakehouse融合了資料湖和資料倉儲的最佳特性,為資料管理和分析帶來了高效且有革命性的進展。透過Databricks在Data+AI Summit 2023上所展示的新功能,Lakehouse進一步強化了其跨平台、AI治理和非表格式數據的管理能力。上述進展預示了Lakehouse將在未來持續主宰資料架構,並確保數據的靈活應用和價值最大化。