Por Eder Dias

Algum tempo atrás vi uma pesquisa do Gartner que dizia: “até 2020, 50% das grandes organizações terão um CDO (Chief Data Officer) com o mesmo nível de influência nas estratégias e autoridade como a de um CIO”. Já estamos em 2020 e o desafio de ser uma organização data driven (orientada a dados) está mais evidente do que nunca.

E nessa era que estamos vivendo, de grandes volumes de dados, muito se fala sobre Big Data, e um termo relacionado que surgiu nos últimos anos e tem ganhado bastante força é o Data Lake (em tradução livre Lago de Dados), mas – diante de tanta informação – é comum encontrar definições, arquiteturas, artigos entre outros artefatos que por vezes confundem ao invés de acrescentar e direcionar as organizações para uma jornada data driven.

Diante disso, como identificar que a organização na qual estou inserido ou que tenho a responsabilidade de guiar nessa jornada precisa de um Data Lake? Pensando nesta questão abaixo destaquei algumas características que podem ajudar a identificar essa necessidade:

  • Silos de dados espalhados pela organização em Data Marts ou Data Warehouses gerando duplicidades tanto nos dados quanto nos indicadores analisados por diferentes departamentos;
  • Aplicações gerando grandes volumes dos mais diversos tipos de dados como, por exemplo:

– Base de dados relacionais;
– Logs de sites e aplicações corporativas ou mobile;
– Imagens;
– Arquivos de mídia (vídeo, som, entre outros).

  • Necessidade de analisar a percepção da empresa nas redes sociais;
  • Soluções limitadas a um tradicional Data Warehouse ou BI;
  • Analistas de BI, Cientistas de Dados e usuários sem uma área na qual todos os dados da organização estão realmente democratizados;
  • Baixo custo de armazenamento dos dados.

Se sua empresa se identifica com algumas dessas características, há grandes chances de que um Data Lake seja a resposta que você precisa.

O que é necessário para se ter um Data Lake?

Um Data Lake não se resume apenas em um componente de armazenamento de dados (storage) como comumente é confundido. E por isso, para se ter um Data Lake que consiga retornar o valor desejado ao seu negócio é necessário ter alguns cuidados e considerar detalhes como:

  • Um Data Lake precisa ter a informação correta e disponível para todos os consumidores assim que a mesma seja inserida nele;
  • Dentro de um Data Lake os dados não devem ser descartados. Uma estratégia orientada a dados deve considerar manter os registros atualizados e/ou apagados nos sistemas fontes para que exista um histórico daquela informação mestre como: produto, cliente, endereço, etc.;
  • Segurança e proteção de dados são pontos críticos e não devem ser esquecidos na solução de Data Lake;
  • Estratégia de arquivamento de dados e políticas de retenção precisam ser planejadas para reduzir custos;
  • A separação em áreas (comumente chamadas de zonas) também é importante, como por exemplo:

Raw zone: Armazena os dados sem nenhuma transformação;
History zone: Armazena todas as versões dos dados;
Work zone: Geralmente utilizada por Cientistas de Dados para
estudo e exploração;
Sensitive zone: Armazena os dados que possuem acesso restrito
na organização;
Gold zone: Armazena os dados já transformados para serem
consumidos.

  • O catálogo de dados contidos no Data Lake é extremamente importante para que não se transforme em um pântano de dados (Data Swamp);
  • Alta capacidade analítica. Um ambiente na nuvem é uma boa escolha, pois, você tem a facilidade de aumentar ou diminuir sua capacidade analítica quando necessário e consequentemente de custos.

Acredito que essas são algumas das boas práticas necessárias para se estabelecer um Data Lake dentro da organização e obter todo seu potencial. Para ilustrar abaixo trouxe uma arquitetura simples de como poderia ser uma boa estrutura de um Data Lake:

Exemplo de uma possível arquitetura de um Data Lake

Por fim, um dos principais objetivos de um Data Lake acaba sendo democratizar os dados dentro da organização possibilitando aos Cientistas de Dados extraí-los, aos Analistas de BI um ambiente self-service completo sem silos de dados e claro aos tomadores de decisões informações pautadas nos dados em uma fonte única da verdade.

Apresentei aqui elementos com o intuito de ajudar você e sua organização a entender melhor qual o papel que um Data Lake desempenha dentro de um ambiente Big Data que poderá facilitar sua jornada Data Driven.

Eder Dias trabalha a mais uma década e meia na Programmer’s Beyond IT e atua com soluções de dados desde 2005. Atualmente tem ajudado clientes a extrair valor dos dados, seja através de um Dashboard ou na elaboração de arquiteturas robustas para processamento de altos volumes de dados em nuvem.

Quer acelerar a transformação digital da sua empresa?_

Nós te ajudamos a prever tendências e alcançar objetivos futuros.

Telefone +55 (11) 3504-1100 Email contato@programmers.com.br                    Entre em contato