Data Lake, de ponta a ponta!
Olá pessoal !!! É com grande prazer que trago esse conteúdo, com o intuito de desmistificar o entendimento sobre esse termo tão atual e difundido no mercado.
Data Lake…
O que é Data Lake? Data Lake é uma estratégia de dados, no qual uma organização integra tecnologias, arquiteturas, soluções, e processos para o armazenamento, gerência, segurança e consumo dos dados.
Por que implementar uma estratégia Data Lake? Atualmente, o maior poderio das organizações, são seus dados. Com esse fundamento consolidado pelo mercado, as empresas buscam cada vez mais se enquadrar em modelos inovadores, aplicar transformações digitais, automatizações inteligentes, explorar ambientes analíticos e de Big Data. Com um Data Lake, ingestões, transformações e disponibilizações são otimizadas, conceitos FAST DATA são habilitados e a governança permissiona, policia e padroniza o ciclo de vida e a qualidade das informações.
Para facilitar o entendimento, faremos um exercício simulando um cenário realista, no qual, iremos desenvolver e implementar um projeto. Nossa demanda, irá, implantar um Data Lake como repositório centralizador de todas as fontes definidas como necessárias, para uma primeira onda de integração de dados em uma esteira produtiva e provendo suas disponibilizações para consumo.
Premissas do projeto:
- Teremos que, carregar dados em lote;
- Carregar dados streaming das redes sociais e disponibilizar em real time;
- Disponibilizar 3 camadas para modelagem dos dados;
- Aplicar segregação lógica para as áreas da organização;
- Implementar processos de governança;
- Disponibilizar dashboards e front ends;
Ao trabalho…
PASSO 1 – Definição de fontes:
Nesse passo, alinhamos e definimos as fontes que serão ingeridas na esteira do Data Lake. Teremos, redes sociais, arquivos, arquivos manuais e bases relacionais.
PASSO 2 – Estrutura de armazenamento:
Nesse passo, validamos e elegemos a tecnologia que usaremos. Será, um storage S3 AWS, para os armazenamentos e demais processos de navegação e consumo dos dados.
PASSO 3 – Ingestões Lote:
Nesse passo, proveremos scripts e tecnologias para as ingestões de bases relacionais, arquivos de sistemas e arquivos manuais, pousando em um camada stage(temporária).
PASSO 4 – Dados Brutos:
Moveremos os arquivos da camada STAGE para a camada de DADOS BRUTOS, onde serão persistido em tabelas, estrutura de diretórios e gerenciado por partições. Nesse nível os dados serão gravados sem nenhuma tranformação. Essa camada é para a persistência do dado em seu detalhe e granularização.
PASSO 5 – Dados Consolidados:
Nesse passo, iremos carregar a camada de dados consolidados, que será voltada a estruturar todos os dados, de todos os tipos e formatos. Aqui, ocorrem as tranformações, uniões, enriquecimentos, formatações e padronizações.
PASSO 6 – Dados Prontos:
Pós estruturarmos todos os arquivos de todos os formatos para modelos estruturados, podemos aplicar outras transformações para qualificar e disponibilizar as informações. Nessa camada, dados prontos, teremos dimensões, agregações, sumarizações, modelos e indicadores. Atribuímos todas as regras de negócios e as disponibilizamos para consumo.
PASSO 7 – Ingestões Real Time:
Agora iremos ingerir e disponibilizar as informações provenientes das redes sociais, usaremos mecanismos de streaming, para mapear perfis e hashtags correlacionadas a marca da organização, disponibilizando diretamente na camada de dados prontos.
PASSO 8 – Segregações lógicas:
Nessa etapa, depois de todas as camadas estarem sendo carregadas e com as regras de acordo, precisamos aplicar mecanismos para a organização e segurança das informações. Implementamos segregações lógicas para separar informações por área, conforme as premissas definiam. Com isso, criamos permissões e acessibilidades para grupos e usuários.
PASSO 9 – Governança de Dados:
Integrando ao processo de segurança, embarcaremos as políticas e padrões da governança para cada camada de dados, no qual, habilitaremos a visão do ciclo de vida do dado, linhagem e maturidade da informação. Os processos serão otimizados e haverão métricas constantes para monitoramento, atualizações e manutenções.
PASSO 10 – Consumidores:
Depois de construirmos todo o pipeline, integrando, soluções, arquiteturas e processos, estamos aptos a prover a premissa final da entrega, os dashboards e front end. Nessa etapa, temos dados com qualidade e disponibilidade, podendo ser consumidos por pessoas, sistemas, ferramentas e demais necessidades.
Entrega concluída, UHUUU!!
Para facilitar o entendimento do consumo de um Data Lake, abordaremos as funções e onde alguns profissionais (normalmente) podem consumir os dados e informações.
(StoryTeller) Analista de visualização de dados:
Ele será um consumidor das informações disponibilizadas, a responsabilidade e o papel do profissional (StoryTeller) Analista de visualização de dados, é contar a história dos dados, demonstrar e produzir as melhores visões das informações, manipular ferramentas e gerar gráficos, dashboards, indicadores, planilhas e o que mais a necessidade demandar.
Cientista de Dados:
Fazendo uso do conceito Fast Data e por meio dos mecanismos de acessibilidade aos dados, o “menino(a) dos olhos” do mercado atual, será responsável por consumir (normalmente) as camadas de dados brutos e dados consolidados. Na camada de dados brutos, ele irá minerar, correlacionar, unir, mapear e estruturar modelagens lógicas para busca de padrões, modelos e etc. Na camada consolidada, irá gerar modelos, insights e tudo que for entrega de valor para a organização.
Analista de Negócio:
O mercado atual está em grande busca de produtividade e otimização de seus processos para consumo dos dados.O Fast Data habilita a integração dos profissionais da área de negócio diretamente aos dados, sem a necessidade de solicitações para a área de TI, isso diminui muito o delay no processo, aproxima o negócio da TI, possibilita que eles também façam trabalhos analíticos e tracionem a entrega de valor para a organização. Normalmente consomem as camadas de dados consolidados e dados prontos, já que comumente não dominam mecanismos de engenharia, porém conhecem bem as regras de negócio que permeiam nessas camadas.
Engenheiro de Dados:
Esse cara é responsável por construir, manter, atualizar e disponibilizar todo o pipeline das informações, englobando suas tecnologias, processos, arquiteturas, infra estruturas e os mecanismos de funcionamentos.
Esse vídeo/gif mostra nossa entrega…
É isso pessoal, muito obrigado pelo apoio, ficarei muito feliz com feedbacks e sugestões.
Até a próxima!!! Sucesso à TODOS!!!
David Braga:
- Categoria(s): ciencia de dados David Braga Engenharia de dados e Big data