Armazém de Dados da Empresa: Conceitos, Arquitetura e Componentes

Conteúdos

Tempo de leitura: 12 minutos

Durante o dia, tomamos muitas decisões com base na experiência anterior. Nossos cérebros armazenam trilhões de bits de dados sobre eventos passados e aproveitam essas memórias cada vez que nos deparamos com a necessidade de tomar uma decisão. Como as pessoas, as empresas geram e coletam toneladas de dados sobre o passado. E esses dados podem ser usados para tomar melhores decisões.

Embora nosso cérebro sirva tanto para processar quanto para armazenar, as empresas precisam de várias ferramentas para trabalhar com dados. E uma das mais importantes é um data warehouse.

Neste artigo, vamos discutir o que é um data warehouse empresarial, seus tipos e funções, e como ele é usado no processamento de dados. Iremos definir como os data warehouses empresariais são diferentes dos habituais, que tipos de data warehouses existem, e como funcionam. O foco é fornecer informações sobre o valor comercial de cada abordagem arquitetônica e conceitual para construir um armazém.

O que é um Enterprise Data Warehouse?

Se você souber quanto terabyte é, você provavelmente ficará impressionado com o fato de que a Netflix tinha cerca de 44 terabytes de dados em seu armazém em 2016. O tamanho só por si indica o porquê de lhe chamarmos armazém, em vez de apenas uma base de dados. Então vamos começar com o básico.

Um Enterprise Data Warehouse (EDW) é uma forma de repositório corporativo que armazena e gerencia todos os dados históricos de negócios de uma empresa. As informações geralmente vêm de diferentes sistemas como ERPs, CRMs, gravações físicas e outros arquivos planos. Para preparar os dados para análise posterior, eles devem ser colocados em um único local de armazenamento. Desta forma, diferentes unidades de negócios podem consultá-la e analisar informações de vários ângulos.

Com um data warehouse, uma empresa pode gerenciar grandes conjuntos de dados, sem administrar vários bancos de dados. Tal prática é uma forma de armazenamento de dados para business intelligence (BI), que é um conjunto de métodos/tecnologias de transformação de dados brutos em insights acionáveis. Sendo o EDW uma parte importante, o sistema é similar a um cérebro humano que armazena informação, mas em esteróides.

Armazém de dados da empresa vs armazém de dados usual: qual é a diferença?

Any data warehouse é um banco de dados que está sempre conectado com fontes de dados brutos através de ferramentas de integração de dados em uma ponta e interfaces analíticas na outra. Se assim for, porque isolamos o formulário empresarial para discussão?

Any warehouse fornece armazenamento que tem mecanismos para transformar dados, movê-los e apresentá-los ao usuário final. A diferença entre um data warehouse usual e um empresarial está em sua diversidade arquitetônica e funcionalidade muito mais ampla. Devido à estrutura e tamanho complexos, os EDWs são frequentemente decompostos em bancos de dados menores, assim os usuários finais ficam mais confortáveis em consultar esses bancos de dados menores. Considerando isso, estamos focando em um armazém empresarial para cobrir todo o espectro de funcionalidades.

No entanto, o tamanho de um armazém não define sua complexidade técnica, os requisitos para capacidades analíticas e de relatórios, o número de modelos de dados e os próprios dados. Então, para entender o que faz de um armazém um armazém, vamos mergulhar nos seus conceitos e funcionalidades centrais.

Conceitos e funções de Data Warehouse da empresa

Com todos os sinos e apitos, no coração de cada armazém estão os conceitos e funções básicas. Estes pilares definem um armazém como um fenómeno tecnológico:

Serviços como o derradeiro armazenamento. Um armazém de dados empresarial é um repositório unificado para todos os dados empresariais que ocorrem na organização.

Reflete os dados de origem. O EDW faz a fonte dos dados de seus espaços de armazenamento originais como Google Analytics, CRMs, dispositivos IoT, etc. Se os dados estiverem espalhados por vários sistemas, é impossível gerenciá-los. Portanto, o objetivo do EDW é fornecer a semelhança dos dados originais da fonte em um único repositório. Como há sempre dados novos e relevantes gerados dentro e fora da empresa, o fluxo de dados requer uma infra-estrutura dedicada para gerenciá-los antes de entrar em um repositório.

Lojas de dados estruturados. Os dados armazenados em um EDW são sempre padronizados e estruturados. Isso possibilita que os usuários finais os consultem através de interfaces de BI e relatórios de formulários. E é isto que torna um data warehouse diferente de um data lake. Lagos de dados são usados para armazenar dados não estruturados para fins analíticos. Mas ao contrário dos armazéns, os lagos de dados são mais usados por engenheiros/cientistas para trabalhar com grandes conjuntos de dados brutos.

Dados subjetivos. O foco principal de um armazém são os dados de negócios que podem se relacionar com diferentes domínios. Para entender com o que os dados se relacionam, eles são sempre estruturados em torno de um assunto específico chamado modelo de dados. Um exemplo de um assunto pode ser uma região de vendas ou vendas totais de um determinado item. Além disso, metadados são adicionados para explicar detalhadamente de onde vem cada pedaço de informação.

Time-dependent. Os dados coletados são geralmente dados históricos, porque descrevem eventos passados. Para entender quando e por quanto tempo uma certa tendência ocorreu, a maioria dos dados armazenados é normalmente dividida em períodos de tempo.

Nonvolátil. Uma vez colocados em um depósito, os dados nunca são apagados dele. Os dados podem ser manipulados, modificados ou atualizados devido a mudanças na fonte, mas nunca devem ser apagados, pelo menos pelos usuários finais. Como falamos de dados históricos, as eliminações são contraproducentes para fins analíticos. No entanto, revisões gerais podem ocorrer uma vez em poucos anos para se livrar de dados irrelevantes.

Considerando os princípios básicos, vamos olhar para os tipos de implementação de DWs.

Tipos de armazenamento de dados

Considerando as funções EDW, há sempre um espaço para discussão sobre como projetá-lo tecnicamente. No caso de armazenamento e processamento de dados, eles são específicos e distintos para diferentes tipos de negócios. Dependendo da quantidade de dados, complexidade analítica, questões de segurança e orçamento, é claro, há sempre uma opção sobre como configurar seu sistema.

Armazém de dados clássico

O armazenamento unificado que tem seu hardware e software dedicado é considerado uma variante clássica para um EDW. Com o armazenamento físico, você não precisa configurar ferramentas de integração de dados entre vários bancos de dados. Em vez disso, o EDW pode ser conectado com fontes de dados através de APIs para obter informações constantemente e transformá-las no processo. Assim, todo o trabalho é feito ou na área de preparação (o local onde os dados são transformados antes do carregamento no DW), ou no próprio armazém.

Um armazém de dados clássico é considerado superlativo a um virtual (que discutimos abaixo), porque não há nenhuma camada adicional de abstração. Ele simplifica o trabalho dos engenheiros de dados e facilita o gerenciamento do fluxo de dados no lado do pré-processamento, bem como os relatórios reais. As desvantagens do armazém clássico dependem da implementação real, mas para a maioria das empresas são:

  • Infra-estrutura tecnológica cara, tanto de hardware como de software;
  • Contratando uma equipe de engenheiros de dados e especialistas DevOps para configurar e manter toda a plataforma de dados.

Quando usar: apropriado para organizações de todos os tamanhos que querem processar seus dados e fazer uso deles. Os armazéns clássicos permitem a transformação em diferentes estilos arquitetônicos da plataforma de dados, bem como a ampliação e redução de escala de propósito.

Armazém de dados virtual

Um armazém de dados virtual é um tipo de EDW usado como uma alternativa a um armazém clássico. Essencialmente, estes são múltiplos bancos de dados conectados virtualmente, assim eles podem ser consultados como um único sistema.

Um esquema de relações entre a abstração do DW virtual e os bancos de dados de origem

Tal abordagem permite às organizações mantê-lo simples: Os dados podem permanecer em suas fontes, mas ainda podem ser puxados com a ajuda de ferramentas analíticas. Armazéns virtuais podem ser usados se você não quiser mexer com toda a infra-estrutura subjacente, ou os dados que você tem são facilmente gerenciáveis como estão. Contudo, tal abordagem tem muitos inconvenientes:

  • Bases de dados múltiplas exigirão manutenção e custos constantes de software e hardware.
  • Os dados armazenados em um DW virtual ainda requerem um software de transformação para torná-lo digerível para os usuários finais e ferramentas de relatório.
  • As consultas de dados complexos podem levar muito tempo, pois os dados necessários podem ser colocados em dois bancos de dados separados.

Quando usar: adequado para empresas que têm dados brutos em uma forma padronizada que não requer análises complexas. Também se encaixa em organizações que não usam BI sistematicamente, ou querem começar com ele.

Cloud Data Warehouse

For a decade, cloud/cloudless technologies have become more of a standard for setting up organization-level technologies. Você encontrará inúmeros provedores no mercado que oferecem armazenamento como um serviço. Para citar alguns:

  • Amazon Redshift/ Página de preços
  • IBM Db2/ Página de preços
  • Google BigQuery/ Página de preços
  • Snowflake/ Página de preços
  • Microsoft SQL Data Warehouse/ Página de preços

Todos os provedores mencionados oferecem uma oferta totalmente gerenciada, Armazenamento escalável como parte de suas ferramentas de BI, ou focar no EDW como um serviço autônomo, como o Snowflake faz. Neste caso, a arquitetura de cloud warehouse tem os mesmos benefícios que qualquer outro serviço de cloud computing. Sua infra-estrutura é mantida para você, o que significa que você não precisa configurar seus próprios servidores, bancos de dados e ferramentas para gerenciá-lo. O preço desse serviço dependerá da quantidade de memória necessária e da quantidade de recursos de computação para consultas.

O único aspecto com o qual você pode estar preocupado em termos de uma plataforma de armazenamento em nuvem é a segurança dos dados. Os seus dados comerciais são uma coisa sensível. Portanto, você quer verificar se o fornecedor que você escolheu pode ser confiável para evitar quebras. Isso não significa necessariamente que um armazém local seja mais seguro, mas neste caso, a segurança dos seus dados está em suas mãos.

Quando usar: As plataformas em nuvem são uma ótima escolha para organizações de qualquer tamanho. Se você precisa de tudo configurado para você, incluindo integração de dados gerenciada, manutenção DW e suporte a BI.

Enterprise Data Warehouse Architecture

Embora existam muitas abordagens arquitetônicas que ampliam as capacidades do armazém de uma forma ou de outra, vamos nos concentrar nas mais essenciais. Sem mergulhar em demasiados detalhes técnicos, todo o pipeline de dados pode ser dividido em três camadas:

  • Camada de dados em bruto (fontes de dados)
  • Armazém e seu ecossistema
  • Interface do utilizador (ferramentas analíticas)

A ferramenta que diz respeito à extracção, transformação e carregamento de dados num armazém é uma categoria separada de ferramentas conhecida como ETL. Além disso, sob o guarda-chuva ETL, ferramentas de integração de dados executam manipulações com dados antes de serem colocados em um armazém. Estas ferramentas operam entre uma camada de dados brutos e um armazém.

Quando os dados são carregados em um armazém, eles também podem ser transformados. Assim, o warehouse irá requerer certas funcionalidades para limpeza/padronização/dimensionalização. Estes e outros fatores irão determinar a complexidade da arquitetura. Nós vamos olhar para a arquitetura EDW do ponto de vista das crescentes necessidades organizacionais.

Arquitetura de um nível

Posto que a integração de dados está bem configurada, nós podemos escolher nosso data warehouse. Na maioria dos casos, um data warehouse é um banco de dados relacional com módulos que permitem dados multidimensionais, ou um que pode separar algumas informações específicas do domínio para facilitar o acesso. Na sua forma mais primitiva, o armazenamento pode ter apenas uma arquitectura de um nível.

A camada de relatórios está ligada directamente a toda a base de dados do EDW

A arquitectura de um nível para EDW significa que tem uma base de dados directamente ligada às interfaces analíticas onde o utilizador final pode fazer consultas. Definir a conexão direta entre uma EDW e ferramentas analíticas traz vários desafios:

  • Tradicionalmente, você pode considerar o seu armazenamento um armazém a partir de 100GB de dados. Trabalhar com ele diretamente pode resultar em resultados de consulta confusos, bem como baixa velocidade de processamento.
  • Perguntar dados diretamente do DW pode requerer uma entrada precisa, de modo que o sistema será capaz de filtrar dados não requeridos. O que torna um pouco difícil lidar com ferramentas de apresentação.
  • Existem limites de flexibilidade/capacidades analíticas.

Adicionalmente, a arquitetura de um nível estabelece alguns limites para a complexidade dos relatórios. Tal abordagem é raramente usada para plataformas de dados em larga escala, devido à sua lentidão e imprevisibilidade. Para realizar consultas avançadas de dados, um warehouse pode ser estendido com instâncias de baixo nível que facilitam o acesso aos dados.

Two-tier architecture (data mart layer)

Na arquitetura dual-tier architecture, um nível de data mart é adicionado entre a interface do usuário e o EDW. Um data mart é um repositório de baixo nível que contém informações específicas do domínio. Simplificando, é outro banco de dados de menor tamanho que estende EDW com informações dedicadas para seus departamentos de vendas/operacionais, marketing, etc.

Em arquitetura de dois níveis, um EDW é estendido por data marts para fornecer dados específicos do domínio

Criar a camada data mart exigirá recursos adicionais para estabelecer hardware e integrar esses bancos de dados com o resto da plataforma de dados. Mas, tal abordagem resolve o problema de consulta: Cada departamento acessará mais facilmente os dados necessários porque um determinado mart conterá apenas informações específicas de um domínio. Além disso, os data marts limitarão o acesso aos dados para os usuários finais, tornando EDW mais seguro.

Tree-tier architecture (Online analytical processing)

No topo da camada do data mart, as empresas também usam cubos de processamento analítico online (OLAP). Um cubo OLAP é um tipo específico de base de dados que representa dados de múltiplas dimensões. Enquanto bancos de dados relacionais representam dados em apenas duas dimensões (pense no Excel ou Google Sheets), OLAP permite que você compile dados em múltiplas dimensões e se mova entre dimensões.

>

A camada de cubos OLAP pode obter informações de marts distribuídos ou diretamente do EDW

É bastante difícil de explicar em palavras, então vamos olhar para este exemplo prático de como um cubo pode se parecer.

>

CuboOLAP demonstrando dados de vendas multidimensionais

Fonte: oreilly.com

Então, como você pode ver, um cubo adiciona dimensões aos dados. Você pode pensar nele como múltiplas tabelas Excel combinadas entre si. A frente do cubo é a usual tabela bidimensional, onde a região (África, Ásia, etc.) é especificada verticalmente, enquanto os números e datas das vendas são escritos horizontalmente. A magia começa quando olhamos para a face superior do cubo, onde as vendas são segmentadas por rotas e a face inferior especifica o período de tempo. Isso é conhecido como dados multidimensionais.

O valor de negócio do OLAP é que ele permite aos usuários cortar e cortar os dados para compilar relatórios detalhados. Desde que os cubos sejam otimizados para trabalhar com armazéns, eles podem ser usados tanto diretamente com um EDW para dar acesso a todos os dados corporativos ou com cada data mart especificamente. Em termos de implementação, quase todos os fornecedores de armazéns oferecem OLAP como um serviço. Como exemplo, verifique a documentação da Microsoft sobre sua oferta OLAP.

A esse ponto, discutimos um projeto de alto nível de um EDW aplicado às necessidades organizacionais. Agora vamos detalhar os componentes técnicos que um armazém pode incluir.

Data Warehouse vs Data Lake vs Data Mart

Falando sobre arquitetura de armazenamento de dados, temos que mencionar tais opções como usar um data mart ou um data lake em vez de um armazém. Freqüentemente confuso, vamos elaborar as definições.

A comparação de três formas de armazenamento de dados

Armazéns de dados são destinados a armazenar dados estruturados, para que ferramentas de consulta e usuários finais possam obter resultados abrangentes. Os armazéns, utilizados principalmente para BI, geralmente variam em tamanho entre 100GB e infinito.

Lagos de dados, no entanto, são utilizados para armazenar a maioria dos dados brutos ou mistos. Estes são frequentemente aproveitados para a aprendizagem de máquinas, grandes dados ou para fins de mineração de dados. Nos últimos dois anos, os lagos de dados foram usados para BI: Dados brutos são carregados em um lago e transformados, o que é uma alternativa ao processo ETL. Enquanto esta abordagem tem seus prós e contras, os lagos de dados podem ser muito confusos para alcançar dados estruturados.

Então temos data marts, que também podem ser usados como uma alternativa ao DW. Tais modelos (como o modelo de Kimball) assumem o uso de múltiplos data marts para distribuir informações por domínios e conectar uns com os outros. Mas, devido ao seu pequeno tamanho (geralmente inferior a 100GB), os data marts dificilmente podem ser usados pelas empresas. Mais frequentemente, os data marts são usados para segmentar um DW grande em mais operáveis.

Componentes de Data Warehouse da empresa

Existem muitos instrumentos usados para configurar uma plataforma de armazenamento. Nós já teremos mencionado a maioria deles, incluindo um armazém em si. Então, vamos ver de perto o propósito de cada componente e suas funções.

Fontes. Isso é simples, as bases de dados onde os dados brutos são armazenados.

Extrair, Transformar, Carregar (ETL) ou Extrair, Carregar, Transformar (ELT) camada. Estas são as ferramentas que realizam a conexão real com os dados da fonte, sua extração e carregamento para o local onde serão transformados. Transformação unifica o formato dos dados. As abordagens ETL e ELT diferem em que na ETL a transformação é feita antes da EDW, em uma área de encenação. ELT é uma abordagem mais moderna que trata de toda a transformação num armazém.

Área de preparação. No caso da ETL, a área de preparação de material é o local onde os dados são carregados antes do EDW. Aqui, ela será limpa e transformada em um determinado modelo de dados. A área de preparação de dados também pode incluir ferramentas para a gestão da qualidade dos dados.

Base de dados DW. Os dados são finalmente carregados para o espaço de armazenamento. No ELT, ainda pode ser necessária alguma transformação aqui. Mas, nesse estágio, todas as mudanças gerais serão aplicadas, então os dados serão carregados em seu(s) modelo(s) final(ais). Como mencionamos, os data warehouses são, na maioria das vezes, bases de dados relacionais. O DW também incluirá um sistema de gestão de bases de dados e armazenamento adicional para metadados.

Meta-data module. Em termos simples, metadados são dados sobre dados. Estas são as explicações que dão dicas para usuários/administradores sobre a que assunto/domínio esta informação se refere. Estes dados podem ser meta técnicos (por exemplo, fonte inicial), ou meta comerciais (por exemplo, região de vendas). Todas as meta são armazenadas em um módulo separado do EDW e são gerenciadas por um gerenciador de metadados.

Camada de relatórios. Estas são ferramentas que dão aos usuários finais acesso aos dados. Também chamada interface BI, esta camada servirá como um dashboard para visualizar dados, formar relatórios e puxar pedaços de informação separados.

Pensamento final

Entendendo a cadeia de ferramentas que passa os dados pode ajudá-lo a descobrir o que realmente se encaixa nos requisitos de sua plataforma de dados. Planejar a criação de um armazém pode levar anos de planejamento e testes, devido à escala do mesmo de uma forma mais básica.

Como proprietário de um negócio, você pode ficar confuso com o número de opções e tecnologias utilizadas, por isso é vital consultar especialistas na área de armazenamento, ETL e BI. Enquanto os especialistas podem ajudá-lo com o aspecto técnico, para definir o propósito do negócio, fale com aqueles que irão usar os dados reais em seu trabalho.

Deixe uma resposta

O seu endereço de email não será publicado.