Por Eder Dias

Algum tempo atrás vi uma pesquisa do Gartner que dizia: “até 2020, 50% das grandes organizações terão um CDO (Chief Data Officer) com o mesmo nível de influência nas estratégias e autoridade como a de um CIO”. Já estamos em 2020 e o desafio de ser uma organização data driven (orientada a dados) está mais evidente do que nunca.

E nessa era que estamos vivendo, de grandes volumes de dados, muito se fala sobre Big Data, e um termo relacionado que surgiu nos últimos anos e tem ganhado bastante força é o Data Lake (em tradução livre Lago de Dados), mas – diante de tanta informação – é comum encontrar definições, arquiteturas, artigos entre outros artefatos que por vezes confundem ao invés de acrescentar e direcionar as organizações para uma jornada data driven.

Diante disso, como identificar que a organização na qual estou inserido ou que tenho a responsabilidade de guiar nessa jornada precisa de um Data Lake? Pensando nesta questão abaixo destaquei algumas características que podem ajudar a identificar essa necessidade:

  • Silos de dados espalhados pela organização em Data Marts ou Data Warehouses gerando duplicidades tanto nos dados quanto nos indicadores analisados por diferentes departamentos;
  • Aplicações gerando grandes volumes dos mais diversos tipos de dados como, por exemplo:

– Base de dados relacionais;
– Logs de sites e aplicações corporativas ou mobile;
– Imagens;
– Arquivos de mídia (vídeo, som, entre outros).

  • Necessidade de analisar a percepção da empresa nas redes sociais;
  • Soluções limitadas a um tradicional Data Warehouse ou BI;
  • Analistas de BI, Cientistas de Dados e usuários sem uma área na qual todos os dados da organização estão realmente democratizados;
  • Baixo custo de armazenamento dos dados.

Se sua empresa se identifica com algumas dessas características, há grandes chances de que um Data Lake seja a resposta que você precisa.

O que é necessário para se ter um Data Lake?

Um Data Lake não se resume apenas em um componente de armazenamento de dados (storage) como comumente é confundido. E por isso, para se ter um Data Lake que consiga retornar o valor desejado ao seu negócio é necessário ter alguns cuidados e considerar detalhes como:

  • Um Data Lake precisa ter a informação correta e disponível para todos os consumidores assim que a mesma seja inserida nele;
  • Dentro de um Data Lake os dados não devem ser descartados. Uma estratégia orientada a dados deve considerar manter os registros atualizados e/ou apagados nos sistemas fontes para que exista um histórico daquela informação mestre como: produto, cliente, endereço, etc.;
  • Segurança e proteção de dados são pontos críticos e não devem ser esquecidos na solução de Data Lake;
  • Estratégia de arquivamento de dados e políticas de retenção precisam ser planejadas para reduzir custos;
  • A separação em áreas (comumente chamadas de zonas) também é importante, como por exemplo:

Raw zone: Armazena os dados sem nenhuma transformação;
History zone: Armazena todas as versões dos dados;
Work zone: Geralmente utilizada por Cientistas de Dados para
estudo e exploração;
Sensitive zone: Armazena os dados que possuem acesso restrito
na organização;
Gold zone: Armazena os dados já transformados para serem
consumidos.

  • O catálogo de dados contidos no Data Lake é extremamente importante para que não se transforme em um pântano de dados (Data Swamp);
  • Alta capacidade analítica. Um ambiente na nuvem é uma boa escolha, pois, você tem a facilidade de aumentar ou diminuir sua capacidade analítica quando necessário e consequentemente de custos.

Acredito que essas são algumas das boas práticas necessárias para se estabelecer um Data Lake dentro da organização e obter todo seu potencial. Para ilustrar abaixo trouxe uma arquitetura simples de como poderia ser uma boa estrutura de um Data Lake:

Por fim, um dos principais objetivos de um Data Lake acaba sendo democratizar os dados dentro da organização possibilitando aos Cientistas de Dados extraí-los, aos Analistas de BI um ambiente self-service completo sem silos de dados e claro aos tomadores de decisões informações pautadas nos dados em uma fonte única da verdade.

Apresentei aqui elementos com o intuito de ajudar você e sua organização a entender melhor qual o papel que um Data Lake desempenha dentro de um ambiente Big Data que poderá facilitar sua jornada Data Driven.

Eder Dias trabalha a mais uma década e meia na Programmer’s Beyond IT e atua com soluções de dados desde 2005. Atualmente tem ajudado clientes a extrair valor dos dados, seja através de um Dashboard ou na elaboração de arquiteturas robustas para processamento de altos volumes de dados em nuvem.

Quer acelerar a transformação digital da sua empresa?_

Nós te ajudamos a prever tendências e alcançar objetivos futuros.

Telefone +55 (11) 3504-1100 Email contato@programmers.com.br                    Entre em contato