Parte do projeto Apache, o Hadoop é um framework aberto para armazenamento de dados e execução de aplicações em clusters de hardware commodity.

Ele fornece armazenamento para quaisquer tipos de dados, grande poder de processamento e alta capacidade de lidar com tarefas ou trabalhos simultâneos.

Talvez, lendo a introdução, você ainda esteja se perguntando o que é Hadoop, não é mesmo? Mas fique tranquilo: para você entender a origem desse software e conhecer os seus benefícios, é só continuar lendo este post!

O que é Hadoop, afinal?

À medida que a internet cresceu no início da década de 2000, os motores de busca e os índices foram criados para ajudar a localizar informações relevantes em meio ao conteúdo baseado em texto. Nos primeiros anos, os resultados de pesquisa foram entregues por seres humanos.

Mas como o número de páginas não parava de crescer, surgiu a necessidade de automatizar o processo. Então, foram criados muitos projetos de estudos conduzidos por universitários, e startups, como Yahoo! e AltaVista, decolaram.

Um desses projetos foi um buscador de código aberto chamado Nutch, criado por Doug Cutting e Mike Cafarella. Eles queriam gerar resultados de pesquisa na web mais rápidos por meio da distribuição de dados e cálculos em computadores diferentes, fazendo com que várias tarefas fossem realizadas simultaneamente. Nesse período, um projeto chamado Google (que, como sabemos, tornou-se um sucesso!), com o mesmo conceito, também estava em andamento.

Em 2006, o Yahoo adquiriu o projeto Nutch, bem como ideias com base no trabalho pioneiro do Google com a automatização de armazenamento de dados distribuídos e processamento. O projeto foi dividido — a parte de web crawler (rastreador web) permaneceu como Nutch e a parte de computação e processamento distribuído passou a ser chamada de Hadoop.

Em 2008, o Yahoo lançou o Hadoop como um projeto open source, ou seja, de código aberto. Hoje, a estrutura e o ecossistema de tecnologias de Hadoop são gerenciados e mantidos pela organização sem fins lucrativos Apache Software Foundation, uma comunidade global de desenvolvedores de software e contribuidores.

Em termos práticos, o Hadoop é um quadro de programação baseado em código java open source que suporta o processamento e o armazenamento de grandes conjuntos de dados em um ambiente de computação distribuída.

Agora, conheça os benefícios do Hadoop.

Capacidade de armazenar e processar grandes quantidades de dados

Com volumes de dados e variedades aumentando a cada dia, especialmente a partir de meios de comunicação social e da Internet das Coisas, a imensa possibilidade de armazenamento é uma das principais vantagens do software.

Poder de computação

O modelo de computação distribuída do Hadoop processa dados em uma velocidade muito rápida. Quanto mais nós de computação (clusters), mais poder de processamento.

Tolerância ao erro

Os dados e o processamento de aplicativos são protegidos contra falhas de hardware. Se um nó é perdido, os trabalhos são automaticamente redirecionados para outros nós para garantir que a computação distribuída não falhe. Várias cópias de todos os dados são armazenados automaticamente.

Flexibilidade

Diferentemente dos bancos de dados relacionais tradicionais, no Hadoop não é preciso pré-processar os dados antes de guardá-los. Ele armazena tantos dados quanto forem necessários para utilizá-los mais tarde. Isso inclui dados não estruturados, como textos, imagens e vídeos.

Baixo custo

O framework open source é gratuito e usa hardware commodity (componentes de custo acessível) para armazenar quantidades exponenciais de dados.

Como usar Hadoop na sua empresa?

A seguir, veja formas de utilizar o Hadoop na sua empresa:

  • Armazene dados com baixo custo: o software permite manter informações que não são consideradas atualmente críticas, mas que você pode querer analisar mais tarde;
  • Desenvolva projetos de Internet das Coisas: o armazenamento de transações em massa é possível com o Hadoop. Isso também permite que você descubra e defina padrões a serem monitorados para instrução normativa;
  • Potencialize o poder de análise da sua empresa: o Hadoop foi concebido para lidar com volumes de dados numa variedade de formatos e formas, por isso, é possível executar algoritmos de análise nele. O Hadoop é a maneira mais prática de criar um projeto de Big Data!

Ajudamos você a entender o que é Hadoop? Então assine a nossa newsletter para receber artigos como este direto em seu e-mail!

Leandro Guimarães
Leandro Guimarães
Leandro Guimarães é o fundador da Know Solutions e trabalha com Business Intelligence desde 2009. Possui amplo conhecimento em Modelagem Dimensional, Data Warehouse e na plataforma Pentaho.

Foi aluno de Ralph Kimball, maior referência mundial no assunto, no curso de Modelagem Dimensional realizado pela Kimball University, em Estocolmo – Suécia.

Já ministrou diversas palestras sobre o tema e atualmente mantêm o blog da Know Solutions, com referências sobre Business Intelligence.

Pós Graduado em Gestão de Projetos de Software pela PUC – Paraná. Trabalhou durante 7 anos na empresa Siemens onde participou de projetos em diferentes países.