Por Eder Dias

Algum tempo atrás vi uma pesquisa do Gartner que dizia: “até 2020, 50% das grandes organizações terão um CDO (Chief Data Officer) com o mesmo nível de influência nas estratégias e autoridade como a de um CIO”. Já estamos as portas de 2020 e o desafio de ser uma organização data driven (orientada a dados) está mais evidente do que nunca.

E nessa era que estamos vivendo, de grandes volumes de dados, muito se fala sobre Big Data, e um termo relacionado que surgiu nos últimos anos e tem ganhado bastante força é o Data Lake (em tradução livre Lago de Dados), mas – diante de tanta informação – é comum encontrar definições, arquiteturas, artigos entre outros artefatos que por vezes confundem ao invés de acrescentar e direcionar as organizações para uma jornada data driven.

Diante disso, como identificar que a organização na qual estou inserido ou que tenho a responsabilidade de guiar nessa jornada precisa de um Data Lake? Pensando nesta questão abaixo destacamos algumas características que ajudam a identificar essa necessidade:

  • Silos de dados espalhados pela organização em Datamarts ou Data Warehouses gerando duplicidades tanto nos dados quanto nos indicadores analisados por diferentes departamentos;
  • Aplicações gerando grandes volumes dos mais diversos tipos de dados como, por exemplo:
    – base de dados relacionais;
    – logs de sites e aplicações corporativas ou mobile;
    – imagens;
    – arquivos de mídia (vídeo, som).
  • Necessidade de analisar a percepção da empresa nas redes sociais;
  • As soluções de dentro de casa se limitam a um tradicional Data Warehouse ou BI;
  • Analistas de BI, Cientistas de Dados e usuários sem uma área onde todos os dados da organização estão realmente democratizados;
  • Baixo custo de armazenamento dos dados.

Se sua empresa se identifica com algumas dessas características, há grandes chances de uma solução que faça uso de um Data Lake ser a resposta que você precisa.

O que é necessário para se ter um Data Lake?

Um Data Lake não se resume apenas em um componente de armazenamento de dados (storage) como comumente é confundidoe para se ter um Data Lake que consiga retornar o valor desejado ao seu negócio é necessário ter o cuidado e considerar alguns detalhes como:

  • Um Data Lake precisa ter a informação correta e disponível para todos os consumidores assim que for inserida;
  • Dentro de um Data Lake os dados não devem ser descartados. Uma estratégia orientada a dados deve considerar manter os registros atualizados e/ou apagados nos sistemas fontes para que exista um histórico daquela informação mestre como: produto, cliente, endereço, etc.;
  • Segurança e proteção de dados são pontos críticos e não devem ser esquecidos na solução de Data Lake;
  • Estratégia de arquivamento de dados, políticas de retenção precisam ser planejadas para reduzir custos;
  • A separação em áreas (comumente chamadas de zonas) também é importante, como por exemplo:
    Raw zone: Armazena os dados sem nenhuma transformação;
    History zone: Armazena todas as versões dos dados.
    Work zone: Geralmente utilizada por cientistas de dados para estudo e exploração;
    Sensitive zone: Armazena os dados que possuem acesso restrito na organização;
    Gold zone: Armazena o dado já transformado para ser consumido.
  • O catálogo de dados contidos no Data Lake é extremamente importante para que não se transforme em um pântano de dados (Data Swamp);
  • Alta capacidade analítica. Um ambiente na nuvem é uma boa escolha, pois, você tem a facilidade de aumentar ou diminuir sua capacidade analítica quando necessário e consequentemente custos.

Acreditamos que essas são algumas das boas práticas necessárias para se estabelecer um Data Lake dentro da organização e obter todo seu potencial. Para ilustrar abaixo trouxe uma arquitetura simples de como poderia ser uma boa estrutura de um Data Lake:

Por fim, um dos principais objetivos de um Data Lake acaba sendo democratizar os dados dentro da organização possibilitando aos cientistas de dados extrai-los, aos analistas de BI um ambiente self-service completo sem silos de dados e claro aos tomadores de decisões informações pautadas nos dados em uma fonte única da verdade.

Apresentamos aqui elementos com o intuito de ajudar você e sua organização a entender melhor qual o papel que um Data Lake desempenha dentro de um ambiente Big Data que poderá facilitar sua jornada Data Driven.

Eder Dias trabalha a mais uma década e meia na Programmer’s Beyond IT e atua com soluções de dados desde 2005. Atualmente tem ajudado clientes a extrair valor dos dados, seja através de um Dashboard ou na elaboração de arquiteturas robustas para processamento de altos volumes de dados em nuvem.

Quer acelerar a transformação digital da sua empresa?_

Nós te ajudamos a prever tendências e alcançar objetivos futuros.

Telefone +55 (11) 3504-1100 Email contato@programmers.com.br                    Entre em contato