O uso massivo da internet e dos aplicativos móveis aumentou exponencialmente o volume de dados gerados por pessoas e empresas. Isso implica na criação de repositórios centrais, de modo que os colaboradores tenham acesso aos registros e possam extrair informação e conhecimento útil ao negócio.
Ao longo do texto, faremos algumas considerações sobre o Data Lake e como ele pode ser esse repositório de dados do negócio. Falaremos sobre suas vantagens e de que formas ele é empregado na prática, tornando a empresa mais competitiva e alinhada com a transformação digital. Boa leitura!
O que é Data Lake?
Basicamente, um Data Lake é um repositório, de modo a conter dados estruturados e não estruturados. Em outras palavras, é possível armazenar em um Data Lake diversas informações que podem ser valiosas ao negócio no futuro. Como exemplos disso, podemos citar interações dos consumidores em redes sociais, vendas, faturamento e dados sobre o mercado e os concorrentes.
Qual a sua importância?
Em um Data Lake, os dados encontram-se na forma bruta. Isso significa que eles devem, posteriormente, ser submetidos a vários processos de tratamento, visando estabelecer padrões e correlações entre eles. Logo, sem o Data Lake, a empresa fica desprovida de um repositório central, capaz de prover melhorias contínuas em seus processos.
Maior flexibilidade
Em alguns cenários, o dado já está pronto para ser usado no negócio. Entretanto, isso pode não ser benéfico, visto que tira um pouco da flexibilidade do colaborador em fazer um tratamento mais completo, de modo que registros brutos venham a compor a base de conhecimento da empresa. Com o Data Lake, no entanto, essa flexibilidade de submeter os dados a várias etapas de tratamento está assegurada.
Informações no volume ideal
Hoje, o volume de dados gerados é muito maior do que antigamente. Por consequência, sistemas pouco robustos tornaram-se praticamente incapazes de lidar com tantos registros, o que motivou a criação de conceitos como o Data Lake. Como falamos no início, alguns dos principais fatores que contribuíram para isso foram o aumento do uso da internet e dos aplicativos móveis.
Dados sempre disponíveis
A disponibilidade contínua de dados é crucial por dois motivos. O primeiro é que vários profissionais — não só os de TI — podem consultar um Data Lake e fazer análises que trazem insights ao negócio. O segundo é que a existência desse repositório central evita que registros relevantes se percam, ainda que estejam inicialmente na forma bruta.
Onde o Data Lake pode ser empregado?
Suponha que a empresa deseja aumentar suas vendas, identificando o que levou a uma queda no último trimestre. Em um Data Lake, é possível encontrar essa resposta, desde que seja feita uma análise estatística, visando descartar registros que não agregam ao propósito em questão. Outra possibilidade é adotar algoritmos de aprendizagem de máquina, que podem ser implementados, posteriormente, em automatização de processos, por exemplo.
O Data Lake é um repositório central que contém dados na forma bruta. Ao longo do texto, vimos que esse conceito ajuda as empresas de várias formas, no intuito de promover melhorias contínuas e aumento da competitividade. Sua importância reside no fato de que ele consegue armazenar um volume imenso de registros, que podem ser submetidos a análises posteriormente.
Siga a Know Solutions nas redes sociais, por meio de nossos perfis no Facebook, Instagram e LinkedIn!
Materia muito interessante
Obrigada pelo artigo 🙂 Acho que eu tenho uma equipe que pode obter cada sucesso 🙂 Mas sem kanbantool.com, nao conseguimos arranjar e controlar todas tarefas. Ferramentas digitais podem ajudar bastante – tal como manager ou teamledaer, mas mais suave 🙂 Eu planejo o dia do trabalho com kanban e todas tarefas sao cumpridas. Eu sei que nao cada um gosta trabalhar assim, mas comigo funciona 🙂
Parabéns por trazer a CRISP-DM de volta ao tablado. O “produtocentrismo” que assola o mercardo de BI pressiona os players a comprar o último brinquedo, a seguir a última moda, quando quase tudo que tem algum uso prático já existe há décadas – como o CRISP-DM
Seria legal um artigo um artigo comparando-o com SEMMA. Pode ser muito interessante para quem entrou na área há menos de 20 anos.
Gostaria de entender se a utilização da Big data nas empresas gera algum tipo de desvantagem nas pessoas que lá trabalham ?
Sobre o comentário do João Kechichian, concordo em relação às empresas não terem claro o que querem, e concordo com o Leandro sobre a abordagem de “Qual o seu problema” para dar as sugestões.
Mas vale ressaltar que as empresas não conseguem identificar o que querem por não terem claro um Planejamento Estratégico e objetivos bem descritos. Isso facilita muito perceber quais indicadores serão necessários acompanhar para atingir os resultados esperados.
Bom dia,
Há muita diferença das versões do livro The Data Warehouse Toolkit?
Vejo que ele esta na 3 edição.
Posso comprar apenas a 3 ou devo comprar todas?
Oi Marcos!
Há algumas atualizações com conceitos mais atuais. Não precisa comprar todas as edições não, apenas a 3a já cobre tudo que precisa.
Sim e não. A maior diferença é entre a primeira edição e as restantes. Da segunda edição em diante, quando a Margy Ross assumiu o livro, é tudo mais ou menos o mesmo.
A primeira edição, que por acaso chegou a ser publicada em português, é a melhor, na minha opinião. Ela é mais concreta, menor e mais focada. Se conseguir achá-la, compre. Vale ouro.
eu precisava para compor você uma pouco de note ajudar diga obrigado again com o extraordinário conselhos você compartilhado nesta página . Foi certamente maravilhosamente generoso com você dando abertamente tudo o que muitas pessoas {poderiam ter | poderiam possivelmente ter | poderiam ter | teriam | distribuído para um ebook para gerar alguma massa para eles mesmos , especialmente considerando que you poderia ter tried it se você nunca desejado . Those estratégias também agido como outras pessoas tenha semelhante desire como my own entender bom negócio mais relacionado este assunto . Eu tenho certeza há alguns mais agradáveis ocasiões ahead para pessoas que ver seu site
[…] de BI — Business Intelligence ou, traduzindo, Inteligência Empresarial — é justamente o diferencial que uma empresa precisa para tratar dados gerados por vários meios. Veja alguns contextos que podem servir de […]
[…] para aumentar seu lucro ou diminuir seus custos operacionais. Esse é o conceito básico de Business Intelligence utilizado como diferencial […]
Olá Leandro.
Acredito que o potencial da área de Business Intelligence dentro das empresas pode ser maior do que se imagina hoje.
Trabalho com consultoria de B.I. para agencias e empresas, e enfrentamos diariamente dois grandes problemas.
1- Padronização dos dados: Como utilizamos muitas fontes de dados, todo o processo, desde o que a implementação, até a parte operacional, precisa ser muito bem estruturada. Sem o padrão das informações perde-se muito tempo com “correção”, sendo que “tempo” não é o que temos para identificar um padrão, pois no dia seguinte ele pode mudar se não o tratarmos.
2- Pessoas que não sabem o que querem: Corporações não sabem o que querem, logo querem tudo. O problema é que sabemos que não tudo não é necessário, se consegue identificar padrões e otimizações com metade do volume. Sendo assim o processo de otimização passa a ser inteligente para ser operacional.
O futuro da área esta encaminhando para segmentações e clusterizações dinâmicas para analise de Big Data, mas se o processo de todos envolvidos precisa ser muito bem desenhado e a área de B.I. precisa ter este knowhow também.
Obrigado e muito bom seus artigos.
Oi João, obrigado pelo seu comentário! Concordo com você!
Realmente, a padronização dos dados é o ponto mais sensível mesmo. Aqui estimamos em torno de 60% a 70% do tempo em um projeto de BI apenas para esta parte.
Sobre as pessoas não saberem o que querem, aqui vemos como uma certa vantagem. Muitas vezes não é nem exatamente não saber o que querem, mas não saberem o que é possível fazer. Com isso, parte do nosso trabalho aqui é exatamente entender do que o cliente sofre aí então sugerir algumas coisas. Tentamos não ir para uma abordagem de “o que você quer” mas sim de “quais são seus problemas”.
Isso me deu até a ideia de criar um post focado nisso, vou deixar anotado para o futuro!
Existe uma técnica chamada Árvore de Realidade Presente, da Teoria das Restrições, que lida justamente com essa barafunda de problemas e entendimentos. Eu experimentei a mesma frustração que você, João, e decidi resolver esse problema. A imagem https://geekbi.files.wordpress.com/2020/10/bi_toc-crt-x.png é um resumo do que eu tenho até agora.
Adoraria uma contribuição. “O cliente não sabe o que quer” já está lá. “Dados são sujos” e “Dados são bagunçados” me parecem boas adições.
O que você acha? E você, Leandro?