探索Lake House：Databricks新功能帶來的變革

何謂Lake House概念？

Lakehouse結合了資料湖和資料倉儲的優勢，使資料團隊能迅速運用數據而無需跨多個系統查詢。這不僅確保數據科學、機器學習和商業分析專案擁有最新、完整的數據，還巧妙地克服了資料湖和資料倉儲之間的差異，提供了結構化數據和原始資料的最佳解決方案，從而解決了傳統二級資料架構中的問題。

Databricks Lakehouse的出現，將資料湖的彈性、成本效益及大規模的特性與資料倉儲的ACID交易和數據控管完美結合，實現了商業智慧（BI）和機器學習（ML）的全面應用。其核心在於保留資料於可大規模調整的雲端物件儲存體中，同時使用開放原始碼的資料標準，確保使用者能夠隨時隨地使用資料。

Lakehouse於實際場景中的應用優勢

在許多企業應用中，Lakehouse能夠迅速處理和結合多種異質和複雜的資料。例如，在下面這個實作示範中，我從不同格式的資料來源：交易資料(csv)、GA logs (parquet)和PageSpeed Insights (json)三種資料來源中，結合了資料湖的優勢，處理了複雜的套嵌格式，最終產生了一個日常營運報表，先簡單介紹一下要整合的資料，包括以下三種：

交易資料：以csv格式儲存的資料，屬於一般的表格型資料，記錄了日常的交易活動，捕捉每一筆交易的細節，如購買日期、數量和價格等。
GA4 log資料：GA4 log資料主要用於分析網站的使用者互動和行為，從而幫助企業了解其網站性能和使用者偏好。資料是從BigQuery中導出的，並由於其包含套嵌的數據結構，選擇以Parquet格式儲存在儲存體。Parquet格式不僅確保資料的壓縮效率，還保持了其階層結構的完整性。
PageSpeed Insight資料：是透過API撈取的資料，以JSON格式呈現。PageSpeed Insight提供了網頁的性能評估，專門測量頁面的加載速度和使用者體驗。它的主要目的是幫助網站開發者優化他們的網站，確保使用者獲得流暢和高效的瀏覽體驗。

將異質的資料上傳到Databricks平台(圖片來源:筆者帳號截圖)

圖1.將異質的資料上傳到Databricks平台

圖片來源:本文作者操作截圖

首先，從三個不同的資料來源中提取資料，並將其存儲為Delta表格。選擇使用Delta格式的主要優勢在於它具有ACID交易功能、高效的資料壓縮以及更快速的查詢性能。當資料成功存儲為Delta表後，可以輕鬆地使用spark.read.table方法來讀取這些資料，並將其轉換成Spark DataFrame的格式，便於資料整合。經過這些步驟後，成功地將三個異質來源的資料整合成一份完整的單日報告，充分展現了Delta Lake在簡化複雜資料工作流程上的強大能力。

將三種資料整合成一個報表(圖片來源:筆者帳號截圖)

圖2.將三種資料整合成一個報表

圖片來源:本文作者操作截圖

Data+AI Summit 2023：Lakehouse的全新里程碑

在最近的Data+AI Summit 2023上，Databricks發表了一系列引人注目的Lakehouse增強功能。首先，「Lakehouse Federation」的出現讓組織在不同的數據平台，如MySQL、Amazon Redshift、Snowflake等上，能夠建立一個開放、高效且安全的資料網狀結構，實現資料無論位於何處都能被輕鬆查詢、管理和監管的目的。

接著，「Governance for AI」使得資料和AI資源在同一平台下統一管理，包括從資料、特徵到模型的查看、版本控制和跟踪。「Volumes in Unity Catalog」打破了只管理表格式數據的局限，允許使用者方便地管理如圖片和視頻等非表格式的數據。最後，「Lakehouse Monitoring」和「Lakehouse Observability」透過AI技術，為數據治理帶來前所未有的監視和診斷工具，助力組織主動識別並解決數據和AI模型中的問題。

Lakehouse將主宰資料架構確保價值最大化

Lakehouse融合了資料湖和資料倉儲的最佳特性，為資料管理和分析帶來了高效且有革命性的進展。透過Databricks在Data+AI Summit 2023上所展示的新功能，Lakehouse進一步強化了其跨平台、AI治理和非表格式數據的管理能力。上述進展預示了Lakehouse將在未來持續主宰資料架構，並確保數據的靈活應用和價值最大化。

財團法人資訊工業策進會_蒐集個人資料告知事項暨個人資料提供同意書

探索Lake House：Databricks新功能帶來的變革

何謂Lake House概念？

Lakehouse於實際場景中的應用優勢

Data+AI Summit 2023：Lakehouse的全新里程碑

Lakehouse將主宰資料架構確保價值最大化

參考資料

專家群介紹

王志清

吳俊達

彭賢恩

蔡政安

鄭旭高

財團法人資訊工業策進會_蒐集個人資料告知事項暨個人資料提供同意書

探索Lake House：Databricks新功能帶來的變革

何謂Lake House概念？

Lakehouse於實際場景中的應用優勢

Data+AI Summit 2023：Lakehouse的全新里程碑

Lakehouse將主宰資料架構 確保價值最大化

參考資料

專家群介紹

王志清

吳俊達

彭賢恩

蔡政安

鄭旭高

Lakehouse將主宰資料架構確保價值最大化