探索Lake House:Databricks新功能帶來的變革



何謂Lake House概念?

Lakehouse結合了資料湖和資料倉儲的優勢,使資料團隊能迅速運用數據而無需跨多個系統查詢。這不僅確保數據科學、機器學習和商業分析專案擁有最新、完整的數據,還巧妙地克服了資料湖和資料倉儲之間的差異,提供了結構化數據和原始資料的最佳解決方案,從而解決了傳統二級資料架構中的問題。

Databricks Lakehouse的出現,將資料湖的彈性、成本效益及大規模的特性與資料倉儲的ACID交易和數據控管完美結合,實現了商業智慧(BI)和機器學習(ML)的全面應用。其核心在於保留資料於可大規模調整的雲端物件儲存體中,同時使用開放原始碼的資料標準,確保使用者能夠隨時隨地使用資料。

Lakehouse於實際場景中的應用優勢

在許多企業應用中,Lakehouse能夠迅速處理和結合多種異質和複雜的資料。例如,在下面這個實作示範中,我從不同格式的資料來源:交易資料(csv)、GA logs (parquet)和PageSpeed Insights (json)三種資料來源中,結合了資料湖的優勢,處理了複雜的套嵌格式,最終產生了一個日常營運報表,先簡單介紹一下要整合的資料,包括以下三種:

  • 交易資料:以csv格式儲存的資料,屬於一般的表格型資料,記錄了日常的交易活動,捕捉每一筆交易的細節,如購買日期、數量和價格等。
  • GA4 log資料:GA4 log資料主要用於分析網站的使用者互動和行為,從而幫助企業了解其網站性能和使用者偏好。資料是從BigQuery中導出的,並由於其包含套嵌的數據結構,選擇以Parquet格式儲存在儲存體。Parquet格式不僅確保資料的壓縮效率,還保持了其階層結構的完整性。
  • PageSpeed Insight資料:是透過API撈取的資料,以JSON格式呈現。PageSpeed Insight提供了網頁的性能評估,專門測量頁面的加載速度和使用者體驗。它的主要目的是幫助網站開發者優化他們的網站,確保使用者獲得流暢和高效的瀏覽體驗。

將異質的資料上傳到Databricks平台(圖片來源:筆者帳號截圖)

圖1.將異質的資料上傳到Databricks平台

圖片來源:本文作者操作截圖

首先,從三個不同的資料來源中提取資料,並將其存儲為Delta表格。選擇使用Delta格式的主要優勢在於它具有ACID交易功能、高效的資料壓縮以及更快速的查詢性能。當資料成功存儲為Delta表後,可以輕鬆地使用spark.read.table方法來讀取這些資料,並將其轉換成Spark DataFrame的格式,便於資料整合。經過這些步驟後,成功地將三個異質來源的資料整合成一份完整的單日報告,充分展現了Delta Lake在簡化複雜資料工作流程上的強大能力。

將三種資料整合成一個報表(圖片來源:筆者帳號截圖)

圖2.將三種資料整合成一個報表

圖片來源:本文作者操作截圖

Data+AI Summit 2023:Lakehouse的全新里程碑

在最近的Data+AI Summit 2023上,Databricks發表了一系列引人注目的Lakehouse增強功能。首先,「Lakehouse Federation」的出現讓組織在不同的數據平台,如MySQL、Amazon Redshift、Snowflake等上,能夠建立一個開放、高效且安全的資料網狀結構,實現資料無論位於何處都能被輕鬆查詢、管理和監管的目的。

接著,「Governance for AI」使得資料和AI資源在同一平台下統一管理,包括從資料、特徵到模型的查看、版本控制和跟踪。「Volumes in Unity Catalog」打破了只管理表格式數據的局限,允許使用者方便地管理如圖片和視頻等非表格式的數據。最後,「Lakehouse Monitoring」和「Lakehouse Observability」透過AI技術,為數據治理帶來前所未有的監視和診斷工具,助力組織主動識別並解決數據和AI模型中的問題。

Lakehouse將主宰資料架構 確保價值最大化

Lakehouse融合了資料湖和資料倉儲的最佳特性,為資料管理和分析帶來了高效且有革命性的進展。透過Databricks在Data+AI Summit 2023上所展示的新功能,Lakehouse進一步強化了其跨平台、AI治理和非表格式數據的管理能力。上述進展預示了Lakehouse將在未來持續主宰資料架構,並確保數據的靈活應用和價值最大化。

參考資料

 

延伸閱讀