?r data mesh och data fabric det senaste och b?sta initiativet, eller nya modeord som syftar till att s?lja l?sningar? Det ?r sv?rt att s?ga, men dessa nya f?retagsinitiativ har ett gemensamt m?l - n?mligen att hantera olika data. Du kan ofta f? ut mer v?rde av dina data om du kan anv?nda olika data f?r dina analyser utan att beh?va kopiera data alltf?r mycket och upprepade g?nger. Data mesh och data fabric har olika tillv?gag?ngss?tt f?r att l?sa problemet med disparata data.
B?de data mesh och fabric fokuserar p? metadata och ett semantiskt lager f?r att utnyttja flera datak?llor f?r analys. Den stora skillnaden verkar dock handla om sammanhang.
Enkelt uttryckt handlar data mesh om m?jligheten att erbjuda olika datak?llor till en analysmotor. Data mesh bygger p? att du k?nner till strukturen i dina k?lldatafiler och att du vet i vilket sammanhang data finns. Att anv?nda data mesh f?ruts?tter att du vet vem, n?r, var, varf?r och hur data skapades. Data mesh kan vara den strategi du anv?nder, till exempel om du vill analysera data fr?n flera datalager i ditt f?retag. Det ?r ett anv?ndningsfall d?r de ursprungliga metadata ?r ganska v?ldefinierade.
Data fabric fokuserar p? orkestrering, metadatahantering och att l?gga till ytterligare sammanhang i data. I datafabriken ?r hanteringen av det semantiska lagret i fokus. Anv?nd det semantiska lagret f?r att representera kritisk f?retagsdata och utveckla en gemensam dialekt f?r dina data. Ett semantiskt lager i ett datafabriksprojekt kan kartl?gga komplexa data i bekanta aff?rstermer som produkt, kund eller int?kter f?r att erbjuda en enhetlig, konsoliderad vy av data i hela organisationen. L?kemedelspr?vningar ?r ett bra exempel p? var du kan anv?nda data fabric, eftersom data fr?n en pr?vning kommer fr?n en kombination av maskiner, rapporter och andra studier d?r data har f? exakta metadata att f?rlita sig p?. Dessa data kan ocks? vara "glesa", vilket inneb?r att ett betydande antal rader och kolumner ?r tomma eller noll.
?
Det finns egentligen inga l?sningar med data-mesh-in-a-box eller data-fabric-in-a-box. N?r den h?r artikeln skrevs fanns det ingen one-stop-shop f?r fabric och data mesh. Med andra ord ?r data mesh och fabric inte mjukvaruprodukter. De ?r snarare strategiska initiativ som kr?ver flera olika l?sningar.
Idag kan f?retag anv?nda flera olika tekniker f?r att skapa ett datan?t eller en datafabrik. H?r ?r n?gra exempel:
Databaser f?r traditioner
Moderna databaser kan utnyttja externa tabeller i datan?tstil. Vertica I PARQUET-databasen kan du till exempel anv?nda PARQUET-filer och andra filtyper s?ml?st utan att ladda dem i huvudlagret. Om du har semistrukturerade data i AVRO, JSON eller TEXT finns det dessutom ett enkelt s?tt att utnyttja schema on read-funktioner f?r att anv?nda data. Den h?r funktionen ?r v?rdefull f?r att skapa ett datan?t om du har olika k?llor och vill utnyttja dem som du skulle g?ra med data i en databas.
S?kmotorer
En hel generation av fr?gemotorer (ibland kallade fr?geacceleratorer) g?r ocks? data mesh m?jligt. L?sningar som Dremio, Starburst och Druid fokuserar fr?mst p? att analysera externa tabeller. De saknar ibland ACID-?verensst?mmelse och f?rm?gan att g?ra analyser med h?g samtidighet, men de ?r ofta till hj?lp i datan?tuppdraget. Fler och fler traditionella databaser har lagt till fr?gemotorer f?r att m?jligg?ra s?ml?sa fr?gor i en databas och en datasj?.
Verktyg f?r visualisering
Vissa avancerade visualiseringsverktyg har ett system med semantiska lager. MicroStrategy, till exempel, erbjuder ett abstraktionslager som ger ett konsekvent s?tt att tolka data fr?n flera k?llor. Dessutom kartl?gger det komplexa data till v?lk?nda aff?rstermer. Den h?r funktionen ?r inte bara en f?renklad datastruktur utan kan ocks? utnyttja databasens funktioner f?r externa tabeller. Kombinerat kan det vara mycket kraftfullt.
Grafdatabaser
Grafdatabaser ?r bra p? orkestrering och kontext och ?r motorerna bakom m?nga l?sningar f?r datafabriker. Att implementera datafabrik med en grafdatabas ?r ett betydande projekt, men du kommer att f? en riktig datafabrik n?r den ?r klar.
Virtualisering av data
Datavirtualiseringsverktyg som de som erbjuds av AtScale och ger BI- och Data Science-team en enhetlig vy f?r att konsumera data. Moderna databaser har ocks? funktioner f?r datavirtualisering.
Datakatalog
En datakatalog ?r en organiserad inventering av datatillg?ngar i organisationen. F?retag som Collibra tillhandah?ller datakataloger f?r uppt?ckt och styrning av data genom att samla in, organisera, f? tillg?ng till och berika metadata.
Lokal objektbutik
Det kan vara till hj?lp att lagra alla filer p? en central plats. Med objektbutiker kan du centralt hantera databaser, datalager och datasj?ar p? ett st?lle med utm?rkt prestanda, s?kerhet och katastrof?terst?llning. Av den anledningen kan objektbutiker som de fr?n Pure, Vast, Dell ECS och m?nga andra hj?lpa till med data mesh.
?
Data mesh ?r ett s?tt att f? tillg?ng till data som kan vara olika och fungerar s?rskilt bra n?r alla datak?llor:
Om data mesh har en svaghet s? ?r det kontexten. Om din analys st?ller fr?gan "enligt vem?" kan en datafabrik vara mer kraftfull f?r att f?rst? detta. Dataingenj?rer st?ter ofta p? motstridig information n?r de integrerar k?llor med varandra. Ett nytt system kan till exempel rapportera en kunds ?lder till 32 ?r, medan ?ldre data kan rapportera samma kund som 30 ?r gammal. Data lineage ?r en extra funktion i data fabric som l?ter dig best?mma vilka datak?llor du ska lita mer p? n?r det finns konflikter.
Data fabric-l?sningar tenderar att kombinera fler verktyg f?r att l?sa ditt problem med disparata data. Verktygen ?r b?de mer eleganta och vanligtvis mer komplexa ?n data mesh. Det kan handla om st?rre transformationsm?jligheter, f?rb?ttrad finkornig s?kerhet, grafiska gr?nssnitt f?r styrning och lineage. Men om det finns en svaghet i data fabric ?r det att du f?rmodligen m?ste l?gga ner betydande arbete p? att skapa/hantera ett semantiskt lager.
De leverant?rer som f?respr?kar en "data fabric"-strategi lyfter ofta fram m?jligheterna med en kunskapsgraf. En kunskapsgraf ers?tter datan?tets dataintegrationsstrategi med en semantisk representation av b?de strukturerad och ostrukturerad data - en som ofta b?ttre st?der flera scheman och dimensioner som f?r?ndras.
?
Mer ?n n?gonsin finns data ofta p? olika platser i databaser och datasj?ar. Molndatabaser varierar kraftigt n?r det g?ller ?tkomst till externa data. Vissa l?sningar kr?ver att data lagras i specifika format i datalager och erbjuder inget st?d f?r datasj?ar. Ytterligare andra st?der datasj?ar men kr?ver flera verktyg f?r att g?ra det. Leta efter en l?sning som kan hantera vanliga format (t.ex. ORC, PARQUET, AVRO, JSON) och utnyttja dessa k?llor i den dagliga analysen p? ett smidigt och snabbt s?tt. Leta efter l?sningar som kan n? andra databaser i din organisation (datavirtualisering) s? att ingen data ?r sv?r att komma ?t.
En SQL-databas som kan distribueras ?verallt och som ?r utformad f?r avancerad analys och snabbhet