Data Mesh 和 Data Fabric 是最新、最偉大的舉措,還是旨在銷售解决方案的新流行語?這很難說,但這些新興的新企業計劃有一個共同的目標,即處理不同的數據。如果您可以使用不同的數據進行分析,而不必過度和重複地複製數據,您通常可以從數據中獲得更多價值。Data Mesh 和 Data Fabric 採用不同的方法來解決不同的數據問題。
数据网格和结构都专注於元数据和语义层,以利用多个数据源进行分析。然而,主要区别似乎与上下文有关。
通俗地说,数据网格是关於向分析引擎提供各种数据源的能力。数据网格依赖於您瞭解源数据文件的结构以及数据的上下文是可靠的这一事实。使用数据网格假定您知道创建数据的人员、时间、地点、原因和方式。数据网格可能是您使用的策略,例如,如果要分析来自公司中多个数据仓库的数据。这是一个原始元数据定义相当明确的用例。
Data Fabric 側重於編排、元數據管理和向數據添加其他上下文。在 Data Fabric 中,管理語義層是重點。使用語義層來表示關鍵公司數據,併為數據開發通用方言。Data Fabric 專案中的語義層可能會將複雜數據映射到熟悉的業務術語(如产物、客戶或收入)中,以在整個組織中提供統一、整合的數據視圖。藥物試驗是使用 Data Fabric 的一個很好的例子,因為試驗的數據來自機器、報告和其他研究的組合,在這些研究中,數據幾乎沒有準確的元數據可供依賴。此數據也可能是「稀疏」的,這意味著大量行和列為空或空。
?
實際上,沒有 data-mesh-in-a-box 或 data-fabric-in-a-box 解决方案。在撰寫本文時,還沒有一站式結構和數據網格商店。換句話說,數據網格和結構不是軟體产物。它們更常見的是需要多種解决方案的戰略計劃。
如今,公司可能會使用多種技术來創建數據網格或數據結構。以下是一些範例:
传统资料库
現代資料庫可以利用资料网格樣式的外部表。 Vertica例如,允許您無縫使用 PARQUET 檔案和其他檔案類型,而無需將它們載入到主儲存庫中。此外,如果您有 AVRO、JSON 或 TEXT 格式的半結構化數據,則有一種簡單的方法可以利用讀取功能上的架構來使用數據。如果您有不同的來源並且希望像使用資料庫中的資料一樣利用它們,那麼此功能對於建立资料网格非常有價值。
查询引擎
整整一代的查询引擎(有時稱為查詢加速器)也使數據網格成為可能。Dremio、Starburst 和 Druid 等解决方案主要側重於分析外部表。它們有時缺乏 ACID 合規性和高併發分析的能力,但它們通常有助於數據網格任務。越來越多的传统资料库添加了查询引擎,以實現資料庫和數據湖中的無縫查詢。
可视化工具
一些高級可视化工具具有語義層系統。例如,MicroStrategy 提供了一個抽象層,提供了一種一致的方式來解釋來自多個來源的數據。此外,它還將複雜的數據映射到熟悉的業務術語中。此功能不僅是簡化的數據結構,還可以利用資料庫的外部表功能。結合在一起,它可以強大而強大。
图形资料库
图形资料库擅長編排和上下文,是許多 Data Fabric 解决方案背後的引擎。使用图形资料库實現Data Fabric是一個重要的專案,但完成後您將獲得真正的Data Fabric。
数据虚拟化
AtScale 和 提供的数据虚拟化工具為 BI 和數據科學團隊提供了一致的數據使用檢視。現代資料庫還具有数据虚拟化功能。
数据目录
数据目录是組織中數據資產的有組織清單。像 Collibra 這樣的公司通過收集、組織、訪問和豐富元數據來提供數據發現和治理目錄。
本地物件存储
將所有文件存儲在一個中心位置會很有説明。物件存儲可讓您在一個地方集中管理資料庫、數據存儲庫和數據湖,並具有卓越的性能、安全性和災難恢復能力。出於這個原因,來自 Pure、Vast、Dell ECS 和許多其他物件存儲的物件存儲可以幫助處理數據網格。
?
资料网格 是一种访问可能不同的数据的方式,在所有数据源都特别有效:
如果數據網格有一個弱點,那就是上下文。如果你的分析問的是“根據誰?”的問題,那麼數據結構可以更強大地理解這一點。數據工程師在將源集成在一起時經常會遇到相互衝突的資訊。例如,新系統可能報告客戶的年齡為32歲,而舊數據可能報告同一客戶為30歲。數據沿襲是 Data Fabric 的一項附加功能,可讓您決定在發生衝突時更信任哪些數據源。
Data Fabric 解决方案 傾向於結合更多工具來解決不同的數據問題。這些工具比數據網格更優雅,通常也更複雜。它們可能包括更強大的轉換功能、增強的細粒度安全性、用於治理和沿襲的圖形介面。但是,如果 Data Fabric 存在弱點,則可能需要花費大量精力來創建/管理語義層。
那些吹捧数据结构策略的供应商通常会推广知识图谱的功能。知识图谱用结构化和非结构化数据的语义表示取代了数据网格数据集成策略,这种策略通常可以更好地支援多个模式和维度的变化。
?
數據通常比以往任何時候都更多樣化地分佈在資料庫和數據湖中。雲資料庫在訪問外部數據方面差異很大。某些解决方案要求數據以特定格式存儲在數據倉庫中,並且不支持數據湖。還有一些支持數據湖,但需要多種工具才能做到這一點。尋找能夠處理常見格式(如 ORC、PARQUET、AVRO、JSON)的解决方案,並優雅而快速地利用這些來源進行日常分析。尋找可以訪問組織中其他資料庫的解决方案(数据虚拟化),以便沒有難以訪問的數據。