sexta-feira, 16 de fevereiro de 2018

Text mining - coleta de dados




A internet proporciona um volume de informações em formato de texto, por exemplo, comentários em redes sociais e fórum de discussão, e-mails e dentre outros. Através da Mineração de Textos (Text Mining) é possível extrair sentimentos em textos, mas precisamente classificar de acordo com o sentimento (Ex. positivo ou negativo). Com isso, influenciar as organizações que querem encontrar as opiniões dos consumidores e as pessoas também querem saber as opiniões dos usuários existente de um produto antes de comprá-los.

Etapa do Processo
A primeira etapa do processo de mineração é coleta de dados. É possível fazer a coleta automaticamente ou de forma manual. Seja qual for a maneira, após a coleta dos dados no formato de texto é necessário realizar ajustes para melhorar o conteúdo e remover algumas imperfeições que possam vim existir no texto como:

  1. Pontuações; 
  2. Acentuações; 
  3. Caracteres especiais;
  4. Letras maiúsculas.

Linguagem de programação Python?
Por ser gratuita, multiplataforma e de fácil aprendizado é uma das linguagens usadas na área de Inteligência Artificial. Contêm uma infinidade de pacotes desenvolvidos para facilitar as análises de textos.

Texto de exemplo:
texto = '#Eu tenho o meu Notebook faz um ano!. estou gostando muito dele até agora não apresentou              problema'

Letras Maiúsculas
Primeiro vamos converter todo o nosso texto para letras minúsculas. Aproveitando o código do texto anterior que gera uma variável chamada texto_longo:

texto = texto.lower()
print (texto)

Pontuações e Caracteres especiais
Para remover podemos utilizar o comando replace(). Assim remover todas as pontuações e caracteres especiais.

pontos = ['.', '!', '?', ';', '@', '#','$','%','&','*','(',')']

for p in pontos:
 texto = texto.replace(p, '')

print (texto)

Letras Maiúsculas
Para remoção das acentuações temos que substituir cada letra acentuada pela sua correspondente não acentuada utilizando também o comando replace().

acentos = ['á','é','í','ó','ú','à','è','ì','ò','ù',
     'ã','ẽ','ĩ','õ','ũ','â','ê','î','ô','û']
s_acentos = ['a','e','i','o','u','a','e','i','o','u',
    'a','e','i','o','u','a','e','i','o','u']

for i in range(0, len(acentos)):
 texto = texto.replace(acentos[i], s_acentos[i])

print (texto)

No próximo post iremos continua com a preparação dos dados conhecer as técnicas de pré-processamento.

Gostou deste e de outros artigos, então Assine o [Descoberta de Conhecimento] por Email.

Nenhum comentário:

Postar um comentário

Text Mining - preparação dos dados

Antes que o conhecimento seja extraído, é necessário que a qualidade do texto seja melhorada, uma vez que, os textos podem conter carac...