A malha de dados e a malha de dados s?o as iniciativas mais recentes e mais importantes ou s?o novos chav?es para vender solu??es? ? difícil dizer, mas essas novas iniciativas corporativas emergentes têm um objetivo em comum: lidar com dados díspares. Muitas vezes, é possível obter mais valor de seus dados se for possível usar dados díspares para sua análise sem precisar copiar dados excessiva e repetidamente. O data mesh e o data fabric adotam abordagens diferentes para resolver o problema dos dados díspares.
Tanto o data mesh quanto o fabric se concentram em metadados e em uma camada sem?ntica para aproveitar várias fontes de dados para análise. No entanto, a principal diferen?a parece estar no contexto.
Em termos leigos, a malha de dados é a capacidade de oferecer várias fontes de dados a um mecanismo analítico. A malha de dados conta com o fato de que você conhece a estrutura dos seus arquivos de dados de origem e que o contexto dos dados é sólido. O uso da malha de dados pressup?e que você saiba quem, quando, onde, por que e como os dados foram criados. A malha de dados pode ser a estratégia a ser usada, por exemplo, se você quiser analisar dados de vários data warehouses da sua empresa. Esse é um caso de uso em que os metadados originais s?o bastante bem definidos.
A estrutura de dados concentra-se na orquestra??o, no gerenciamento de metadados e no acréscimo de contexto adicional aos dados. Na estrutura de dados, o foco é o gerenciamento da camada sem?ntica. Use a camada sem?ntica para representar dados corporativos essenciais e desenvolver um dialeto comum para seus dados. Uma camada sem?ntica em um projeto de estrutura de dados pode mapear dados complexos em termos comerciais conhecidos, como produto, cliente ou receita, para oferecer uma vis?o unificada e consolidada dos dados em toda a organiza??o. Os estudos farmacêuticos s?o um bom exemplo de como usar o data fabric, pois os dados de um estudo s?o provenientes de uma combina??o de máquinas, relatórios e outros estudos em que os dados têm poucos metadados precisos nos quais se pode confiar. Esses dados também podem ser "esparsos", o que significa que um número significativo de linhas e colunas está em branco ou é nulo.
?
Na verdade, n?o existem solu??es do tipo data mesh-in-a-box ou data-fabric-in-a-box. Até o momento em que este artigo foi escrito, n?o havia um balc?o único para fabric e data mesh. Em outras palavras, data mesh e fabric n?o s?o produtos de software. Eles s?o mais comumente iniciativas estratégicas que exigem várias solu??es.
Atualmente, as empresas podem usar várias tecnologias para criar uma malha de dados ou um tecido de dados. Aqui est?o alguns exemplos:
Bancos de dados tradicionais
Os bancos de dados modernos podem aproveitar tabelas externas no estilo de malha de dados. Vertica O banco de dados da Microsoft, por exemplo, permite que você use arquivos PARQUET e outros tipos de arquivo sem problemas, sem carregá-los no repositório principal. Além disso, se você tiver dados semiestruturados em AVRO, JSON ou TEXT, há uma maneira fácil de aproveitar o esquema em recursos de leitura para usar os dados. Essa funcionalidade é valiosa para criar uma malha de dados se você tiver fontes diferentes e quiser aproveitá-las como faria com os dados em um banco de dados.
Mecanismos de consulta
Uma gera??o inteira de mecanismos de consulta (às vezes chamados de aceleradores de consulta) também possibilita a malha de dados. Solu??es como Dremio, Starburst e Druid concentram-se principalmente na análise de tabelas externas. ?s vezes, elas n?o est?o em conformidade com a ACID e n?o têm a capacidade de fazer análises com alta simultaneidade, mas geralmente s?o úteis na miss?o da malha de dados. Cada vez mais os bancos de dados tradicionais adicionaram mecanismos de consulta para permitir a consulta contínua em um banco de dados e em um data lake.
Ferramentas de visualiza??o
Algumas ferramentas avan?adas de visualiza??o têm um sistema de camada sem?ntica. A MicroStrategy, por exemplo, oferece uma camada de abstra??o que proporciona uma maneira consistente de interpretar dados de várias fontes. Além disso, ela mapeia dados complexos em termos comerciais familiares. Esse recurso n?o é apenas uma estrutura de dados simplificada, mas também pode aproveitar os recursos de tabelas externas de seu banco de dados. Combinados, eles podem ser muito poderosos.
Bancos de dados gráficos
Os bancos de dados gráficos s?o bons em orquestra??o e contexto e s?o os mecanismos por trás de muitas solu??es de estrutura de dados. A implementa??o da malha de dados com um banco de dados gráfico é um projeto significativo, mas você terá uma verdadeira malha de dados quando concluída.
Virtualiza??o de dados
As ferramentas de virtualiza??o de dados, como as oferecidas pela AtScale e pela , apresentam uma vis?o consistente para as equipes de BI e de ciência de dados consumirem os dados. Os bancos de dados modernos também têm recursos de virtualiza??o de dados.
Catálogo de dados
Um catálogo de dados é um inventário organizado de ativos de dados na organiza??o. Empresas como a Collibra fornecem catálogos de descoberta e governan?a de dados coletando, organizando, acessando e enriquecendo metadados.
Armazenamento de objetos no local
Pode ser útil armazenar todos os seus arquivos em um local central. Os armazenamentos de objetos permitem gerenciar centralmente bancos de dados, repositórios de dados e lagos de dados em um único local com excelente desempenho, seguran?a e recupera??o de desastres. Por esse motivo, os armazenamentos de objetos, como os da Pure, Vast, Dell ECS e muitos outros, podem ajudar com a malha de dados.
?
A malha de dados é uma forma de acessar dados que podem ser díspares e funciona particularmente bem quando todas as fontes de dados:
Se a malha de dados tem um ponto fraco, ele é o contexto. Se a sua análise está fazendo a pergunta "de acordo com quem?", ent?o uma malha de dados pode ser mais poderosa para entender isso. Os engenheiros de dados geralmente se deparam com informa??es conflitantes ao integrar fontes. Por exemplo, um novo sistema pode estar informando a idade de um cliente como 32 anos, enquanto os dados legados podem estar informando que o mesmo cliente tem 30 anos. A linhagem de dados é um recurso adicional da estrutura de dados que permite que você decida em quais fontes de dados confiar mais quando houver conflitos.
As solu??es de malha de dados tendem a combinar mais ferramentas para resolver seu problema de dados díspares. As ferramentas s?o mais elegantes e geralmente mais complexas do que a malha de dados. Elas podem incluir mais recursos de transforma??o, seguran?a aprimorada e refinada, interfaces gráficas para governan?a e linhagem. No entanto, se há um ponto fraco na malha de dados, é que você provavelmente terá que despender um esfor?o significativo para criar/gerenciar uma camada sem?ntica.
Os fornecedores que divulgam uma estratégia de malha de dados geralmente promovem os recursos de um gráfico de conhecimento. Um gráfico de conhecimento substitui a estratégia de integra??o de dados de malha de dados por uma representa??o sem?ntica de dados estruturados e n?o estruturados - uma representa??o que, em geral, suporta melhor vários esquemas e dimens?es que mudam.
?
Mais do que nunca, os dados costumam estar localizados de forma diversificada em bancos de dados e data lakes. Os bancos de dados em nuvem variam muito em termos de acesso a dados externos. Algumas solu??es exigem que os dados sejam armazenados em formatos específicos em data warehouses e n?o oferecem suporte para data lakes. Outras ainda oferecem suporte a data lakes, mas exigem várias ferramentas para isso. Procure uma solu??o que possa lidar com formatos comuns (como ORC, PARQUET, AVRO, JSON) e aproveitar essas fontes na análise diária com gra?a e rapidez. Procure solu??es que possam alcan?ar outros bancos de dados em sua organiza??o (virtualiza??o de dados) para que nenhum dado seja difícil de acessar.
Um banco de dados SQL implementado em qualquer lugar, projetado para análises avan?adas e velocidade