Nesse contexto, identificar o que é relevante e criar valor para um determinado negócio seria uma tarefa impossível se não fosse o auxílio de ferramentas adequadas — e uma delas é o Data Mining.
Quer saber mais sobre o conceito e como esse recurso pode contribuir para tornar sua empresa mais competitiva? Então, continue conosco e descubra o que é Data Mining.
Saiba o que é Data Mining
Data Mining (ou mineração de dados) é um processo analítico no qual grande quantidade de dados são explorados com o objetivo de encontrar padrões relevantes ou relação sistemática entre variáveis, os quais são validados.
Todo esse processo acontece em três etapas: exploração, construção de modelo (padrão) e validação. As ferramentas de Data Mining analisam dados em busca de oportunidades ou problemas e fazem o diagnóstico do comportamento dos negócios. Sendo assim, cabe ao usuário utilizar o conhecimento para produzir vantagens competitivas.
Essa ferramenta utiliza algoritmos matemáticos sofisticados para segmentar dados e avaliar a probabilidade de eventos futuros encontrando respostas para perguntas que não poderiam ser respondidas por simples relatórios ou técnicas de pesquisa.
O Data Mining caracteriza-se pela descoberta automática de padrões, a predição de resultados, criação de informações acionáveis e foco em grandes conjuntos de dados.
Veja como funciona o Data Mining
A mineração de dados é realizada por meio da construção de modelos. Um modelo usa algoritmos para agir sobre um conjunto de dados. Esse processo ocorre em três momentos. No primeiro (criação do modelo), o usuário determina qual é o problema para o qual deseja solução e seleciona as tabelas que deseja analisar.
No estágio seguinte, conhecido como treinamento do modelo, é comandada a execução do algoritmo sobre as tabelas selecionadas na etapa anterior. Assim, gera-se um conjunto de regras e padrões extraídos dessas tabelas. É nesse momento que o usuário define exatamente qual conjunto de dados será investigado.
Finalmente, chega o momento de consulta de dados, o usuário poderá fazer uso do conjunto de regras e padrões descobertos pelo algoritmo.
Quais são as etapas do Data Mining?
No tópico anterior, falamos do processo de Data Mining de uma forma mais genérica. Agora, conheceremos melhor as etapas do Data Mining. Veja abaixo.
Definição do problema
O primeiro passo para realizar a mineração de dados é definir o problema que você abordará. Assim, nesse começo, o principal objetivo é entender o que deve ser solucionado e estabelecer metas realistas para realizar o trabalho de Data Mining.
Dessa forma, sua empresa precisa traçar as metas a serem atingidas por essa atividade e a expectativa geral em relação aos resultados que serão colhidos.
Exploração e integração de dados
É nessa etapa que as ferramentas estatísticas começam a ser utilizadas. Além disso, esse é o momento no qual os analistas coletam, descrevem o que foi obtido e exploram os dados iniciais.
A qualidade dos dados que foram coletados também começa a ser testada, de modo a começar a descartar o que não agregará valor ao negócio.
Preparação e seleção dos dados
Agora, temos um esforço para excluir tudo que seja irrelevante aos objetivos determinados no início do trabalho. A principal diferença dessa etapa para a anterior é que a exploração e integração se concentra mais na eliminação de dados reincidentes e duplicados.
Já a seleção se ocupa de preparar os dados por métodos diversos de filtragem, combinações diversas e preenchimento de valores vazios.
Limpeza dos dados
O quarto passo, e um dos mais significativos, é a limpeza dos dados. É interessante notar que muitas pessoas julgam que o ato de minerar informações se concentra unicamente no ato de extrair valor de elementos brutos.
Contudo, como vemos agora, a limpeza efetiva só ocorre na quarta etapa do processo. Como o próprio nome sugere, esse é o momento de realizar uma avaliação mais precisa dos dados selecionados e tratar aqueles que ainda apresentem algum problema.
Desse modo, a limpeza se ocupa de situações como a inserção errônea de dados no sistema, informações conflituosas em geral. Caso ainda existam elementos com nomes duplicados e reincidentes, é hora de cuidar deles também.
Após a limpeza dos dados, é preciso garantir que as informações sejam realmente mineráveis. Só assim você garante que a continuidade das tarefas gerará conhecimento relevante para o negócio. Para conseguir isso, técnicas como a generalização são especialmente importantes.
Porém, como podemos exemplificar um processo de generalização? Vamos supor que os gestores querem descobrir a faixa etária dos consumidores de um determinado produto. É possível pegar a informação geral relacionada à idade dos clientes e distribuí-la em grupos comuns (como de 14 até os 19 anos).
Mineração de dados
Por fim, temos o processo propriamente dito. Com todas as informações já filtradas e devidamente tratadas, é possível utilizar uma série de técnicas para estabelecer padrões, tendências e correlações gerais dentro de uma base comum.
Algumas das técnicas utilizadas nesse passo são as redes neurais artificiais e as árvores de decisão. São modelos matemáticos e representações gráficas que informam aos gestores os padrões que poderão ser explorados pelo negócio.
Assim, o que era simplesmente um indício se torna conhecimento relevante para o negócio. A partir daí, as estratégias comerciais serão desenvolvidas com mais apuro e conhecimento de causa.
Descubra por que usar o Data Mining
O Data Mining permite tirar proveito de todo o conhecimento que pode ser extraído do patrimônio digital que vem sendo acumulado pela humanidade. As empresas podem utilizar essa ferramenta, por exemplo, para classificar seus clientes com base no potencial de compra e assim, direcionar as ofertas.
Outra aplicação prática é em uma base de dados sobre vendas de produtos realizadas em determinado período pode ser minerada em busca de associações interessantes entre produtos. Isso visa oferecer uma opção na qual eles sejam ofertados em conjunto.
Quer outro exemplo? Modelos de classificação podem ser utilizados para caracterizar clientes como bons pagadores, pagadores com atraso ou que não pagam de jeito nenhum. O Data Mining pode embasar a criação de mecanismos antifraudes para administradoras de cartão de crédito.
Outra grande utilidade dessa ferramenta é permitir a identificação de tendências de mercado. Uma das formas de se fazer isso é minerar dados provenientes das redes sociais a fim de entender o comportamento de seus usuários.
Agora que você já sabe o que é Data Mining e como essa ferramenta pode contribuir para a criação de diferenciais para o seu negócio não perca mais tempo. Comece a utilizar já. Porém é preciso ter atenção, já que sua gestão é fundamental para que as informações obtidas pela mineração de dados se transformem em valor para o seu negócio.
Queremos saber: sua empresa já utiliza os benefícios do Data Mining? Como essa ferramenta contribuiu para alavancar os seus negócios? Compartilhe a sua experiência e deixe seu relato no campo dos comentários!
Olá Leandro.
Acredito que o potencial da área de Business Intelligence dentro das empresas pode ser maior do que se imagina hoje.
Trabalho com consultoria de B.I. para agencias e empresas, e enfrentamos diariamente dois grandes problemas.
1- Padronização dos dados: Como utilizamos muitas fontes de dados, todo o processo, desde o que a implementação, até a parte operacional, precisa ser muito bem estruturada. Sem o padrão das informações perde-se muito tempo com “correção”, sendo que “tempo” não é o que temos para identificar um padrão, pois no dia seguinte ele pode mudar se não o tratarmos.
2- Pessoas que não sabem o que querem: Corporações não sabem o que querem, logo querem tudo. O problema é que sabemos que não tudo não é necessário, se consegue identificar padrões e otimizações com metade do volume. Sendo assim o processo de otimização passa a ser inteligente para ser operacional.
O futuro da área esta encaminhando para segmentações e clusterizações dinâmicas para analise de Big Data, mas se o processo de todos envolvidos precisa ser muito bem desenhado e a área de B.I. precisa ter este knowhow também.
Obrigado e muito bom seus artigos.
Oi João, obrigado pelo seu comentário! Concordo com você!
Realmente, a padronização dos dados é o ponto mais sensível mesmo. Aqui estimamos em torno de 60% a 70% do tempo em um projeto de BI apenas para esta parte.
Sobre as pessoas não saberem o que querem, aqui vemos como uma certa vantagem. Muitas vezes não é nem exatamente não saber o que querem, mas não saberem o que é possível fazer. Com isso, parte do nosso trabalho aqui é exatamente entender do que o cliente sofre aí então sugerir algumas coisas. Tentamos não ir para uma abordagem de “o que você quer” mas sim de “quais são seus problemas”.
Isso me deu até a ideia de criar um post focado nisso, vou deixar anotado para o futuro!
Existe uma técnica chamada Árvore de Realidade Presente, da Teoria das Restrições, que lida justamente com essa barafunda de problemas e entendimentos. Eu experimentei a mesma frustração que você, João, e decidi resolver esse problema. A imagem https://geekbi.files.wordpress.com/2020/10/bi_toc-crt-x.png é um resumo do que eu tenho até agora.
Adoraria uma contribuição. “O cliente não sabe o que quer” já está lá. “Dados são sujos” e “Dados são bagunçados” me parecem boas adições.
O que você acha? E você, Leandro?
[…] para aumentar seu lucro ou diminuir seus custos operacionais. Esse é o conceito básico de Business Intelligence utilizado como diferencial […]
[…] de BI — Business Intelligence ou, traduzindo, Inteligência Empresarial — é justamente o diferencial que uma empresa precisa para tratar dados gerados por vários meios. Veja alguns contextos que podem servir de […]
eu precisava para compor você uma pouco de note ajudar diga obrigado again com o extraordinário conselhos você compartilhado nesta página . Foi certamente maravilhosamente generoso com você dando abertamente tudo o que muitas pessoas {poderiam ter | poderiam possivelmente ter | poderiam ter | teriam | distribuído para um ebook para gerar alguma massa para eles mesmos , especialmente considerando que you poderia ter tried it se você nunca desejado . Those estratégias também agido como outras pessoas tenha semelhante desire como my own entender bom negócio mais relacionado este assunto . Eu tenho certeza há alguns mais agradáveis ocasiões ahead para pessoas que ver seu site
Bom dia,
Há muita diferença das versões do livro The Data Warehouse Toolkit?
Vejo que ele esta na 3 edição.
Posso comprar apenas a 3 ou devo comprar todas?
Oi Marcos!
Há algumas atualizações com conceitos mais atuais. Não precisa comprar todas as edições não, apenas a 3a já cobre tudo que precisa.
Sim e não. A maior diferença é entre a primeira edição e as restantes. Da segunda edição em diante, quando a Margy Ross assumiu o livro, é tudo mais ou menos o mesmo.
A primeira edição, que por acaso chegou a ser publicada em português, é a melhor, na minha opinião. Ela é mais concreta, menor e mais focada. Se conseguir achá-la, compre. Vale ouro.
Sobre o comentário do João Kechichian, concordo em relação às empresas não terem claro o que querem, e concordo com o Leandro sobre a abordagem de “Qual o seu problema” para dar as sugestões.
Mas vale ressaltar que as empresas não conseguem identificar o que querem por não terem claro um Planejamento Estratégico e objetivos bem descritos. Isso facilita muito perceber quais indicadores serão necessários acompanhar para atingir os resultados esperados.
Gostaria de entender se a utilização da Big data nas empresas gera algum tipo de desvantagem nas pessoas que lá trabalham ?
Parabéns por trazer a CRISP-DM de volta ao tablado. O “produtocentrismo” que assola o mercardo de BI pressiona os players a comprar o último brinquedo, a seguir a última moda, quando quase tudo que tem algum uso prático já existe há décadas – como o CRISP-DM
Seria legal um artigo um artigo comparando-o com SEMMA. Pode ser muito interessante para quem entrou na área há menos de 20 anos.