Descoberta de Conhecimento: Mineração de Dados

No processo de descoberta de conhecimento em base de dados (KDD) uma das mais uteis tarefas chama-se classificação, como foi visto no post anterior – clique aqui para acessá-lo. Seu objetivo é fazer com que um programa de computador atribua automaticamente uma classe para um objeto cuja classe seja desconhecida.

Desvendado a Técnica

Com o intuito de classificar registros para poder prever, ou seja, tem a tarefa de associar os registros minerados a classes pré-estabelecidas, de acordo com as suas semelhanças, buscando associar cada registro da base a um único rótulo categórico chamado de classe. Por exemplo, com base nas características pessoais de um indivíduo é possível aprender se irá ou não comprar um livro. A classificação é uma das técnicas de aprendizado de máquina mais utilizadas em trabalhos científicos (estado da arte).

Para ficar mais claro, apresento alguns exemplos. Considere um projeto onde a tarefa é verificar o sexo masculino ou feminino. O sistema recebe como entrada a fotografia do rosto de uma pessoa realiza o processamento e no final seja capaz de determinar automaticamente o sexo do indivíduo. Veja que o objetivo do sistema é associar uma classe (“masculino” ou “feminino”) para um objeto (a fotografia de um rosto), desta forma, trata-se de um sistema que realiza a tarefa de classificação.

Existem vários outros exemplos de aplicações práticas em áreas distintas como segurança de informação, finanças, comercio, marketing, bioinformática e outras como:

Detecção de fraudes: identificar se uma transação financeira é “legal” ou “suspeita”.
Programas de filtragem de spam: detectar se email é “normal” ou “spam”.
Aprovação de crédito: classificar um cliente como de “alto”, “médio” ou “baixo” risco para a concessão de crédito.
Atribuição de tópicos (Topic Tagging): textos livres (ex: texto de uma notícia), podem ser automaticamente classificados em um número fixo de categorias (ex: “esporte”, “política”, “cultura”).

Na área de bioinformática, os algoritmos de classificação possuem diversas aplicações como, por exemplo, a identificação da classe de proteínas, o que possibilita descobrir quais são as funções das mesmas.

Um programa ou algoritmo criado com o intuito de executar a tarefa de classificação é denominado classificador. Sua construção deve ser precisa e eficiente devido ao seu grande de minerar grandes base de dados. Por este motivo, foram desenvolvidas diversas técnicas (algoritmos) para a construção de classificadores, tais como, árvores de decisão, redes neurais, SVMs (Support Vector Machines), kNN (kNearest Neighbors) e Naïve Bayes.

Referências:

Gostou deste e de outros artigos, então Assine o [Descoberta de Conhecimento] por Email.

Descoberta de Conhecimento

segunda-feira, 29 de janeiro de 2018

Mineração de Dados - Classificação

Nenhum comentário:

Postar um comentário

Text Mining - preparação dos dados