No processo de descoberta de conhecimento em base de dados
(KDD) uma das mais uteis tarefas chama-se classificação, como foi visto no post
anterior – clique aqui para acessá-lo. Seu objetivo é fazer com que um programa
de computador atribua automaticamente uma classe para um objeto cuja classe
seja desconhecida.
Desvendado a Técnica
Com o intuito de classificar registros para poder prever, ou
seja, tem a tarefa de associar os registros minerados a classes pré-estabelecidas,
de acordo com as suas semelhanças, buscando associar cada registro da base a um
único rótulo categórico chamado de classe. Por exemplo, com base nas
características pessoais de um indivíduo é possível aprender se irá ou não
comprar um livro. A classificação é uma das técnicas de aprendizado de máquina
mais utilizadas em trabalhos científicos (estado da arte).
Para ficar mais claro, apresento alguns exemplos. Considere um
projeto onde a tarefa é verificar o sexo masculino ou feminino. O sistema recebe
como entrada a fotografia do rosto de uma pessoa realiza o processamento e no
final seja capaz de determinar automaticamente o sexo do indivíduo. Veja que o
objetivo do sistema é associar uma classe (“masculino” ou “feminino”) para um
objeto (a fotografia de um rosto), desta forma, trata-se de um sistema que
realiza a tarefa de classificação.
Existem vários outros exemplos de aplicações práticas em
áreas distintas como segurança de informação, finanças, comercio, marketing,
bioinformática e outras como:
- Detecção de fraudes: identificar se uma transação financeira é “legal” ou “suspeita”.
- Programas de filtragem de spam: detectar se email é “normal” ou “spam”.
- Aprovação de crédito: classificar um cliente como de “alto”, “médio” ou “baixo” risco para a concessão de crédito.
- Atribuição de tópicos (Topic Tagging): textos livres (ex: texto de uma notícia), podem ser automaticamente classificados em um número fixo de categorias (ex: “esporte”, “política”, “cultura”).
Na área de bioinformática, os algoritmos de classificação
possuem diversas aplicações como, por exemplo, a identificação da classe de
proteínas, o que possibilita descobrir quais são as funções das mesmas.
Um programa ou algoritmo criado com o intuito de executar a
tarefa de classificação é denominado classificador. Sua construção deve ser
precisa e eficiente devido ao seu grande de minerar grandes base de dados. Por
este motivo, foram desenvolvidas diversas técnicas (algoritmos) para a
construção de classificadores, tais como, árvores de decisão, redes neurais,
SVMs (Support Vector Machines), kNN (kNearest Neighbors) e Naïve Bayes.
Referências:
Gostou deste e de outros artigos, então Assine o [Descoberta de Conhecimento] por Email.
Nenhum comentário:
Postar um comentário