Descoberta de Conhecimento: Text Mining

O aumento do acesso das pessoas à internet representa um meio natural de armazenar informações em formato textual. Isso contribui para o crescimento da informação produzida e disponível nas mais variadas formas de documento de textos como, livros, revistas, artigos científicos, comentários em rede sociais, e-mails e outros tipos[1]. Deve-se também ao fato de que formato textual representa um meio intuitivo de internalização, quer dizer, registrar em textos livres, pensamentos, ideias, sentimentos e opiniões [2]. Isso foi de grande valia para que as pessoas pudessem dar suas opiniões sobre um produto ou serviços.

A Mineração de Texto (Text Mining) ou mais precisamente Análise de Textos (Text Analytics), visa descobrir informações uteis que ainda não são conhecidas e que a extração é feita de textos livres da Internet através da identificação e exploração de padrões não triviais. Essas fontes de dados dizem respeito às informações não estruturadas e/ou semiestruturadas que o cientista de dados tem que lidar [3].

Como ser um cientista de dados - Clique Aqui

A Mineração de Textos (MT) vem sendo uma variante da área de Mineração de Dados (Data Mining) é uma solução mais atraente para lidar com fontes que apresentam uma organização bastante heterogênea. Correlacionando com os algoritmos e métodos do KDD, e áreas de Aprendizado de Máquina, Estatística, Processamento de Linguagem Natural (NLP) e Classificação de Documentos (CP). E também faz uso de técnicas de recuperação de informação e extração de informação.

Por exemplo, pense em comentários de rede sociais e fóruns que estão comentando sobre um determinado assunto:

“Lançamento de um produto no mercado”

Qual a reputação dessa marca ou marcas?
Quais os aspectos positivos ou negativos acerca do produto?

Nesses ambientes, é possível verificar de que forma uma determinada marca ou produto estar sendo avaliado e, essa informação pode ser um bem muito valioso tanto para as pessoas quanto dentro de uma organização. Dispondo da informação correta no momento oportuno é caracterizado como um imprescindível diferencial. Mas há um problema, o grande volume de informações faz com que organizações e pessoas tenham dificuldades para gerenciá-las, principalmente, se não tiverem uma estrutura apropriada.

E assim, para sanas essas dificuldades e responder as perguntas acima, o Text Analytics traz um conjunto de técnicas e metodologias automatizadas para extrair informações uteis do texto [3]. Ou seja, você pode aplicar essa técnica para analisar sentimento dos comentários e verificar o feedback dos usuários.

Isso porque, a análise de textos envolve várias áreas de conhecimento como extração de informação, análise léxica, estudo das distribuições de frequência de palavras, reconhecimento de padrões, tagging, mineração de dados, redes complexas, regre as de associação, visualização de dados e análise preditiva. Em resumo, estamos falando essencialmente de transformar textos em dados para análise, por meio da aplicação de técnicas de processamento de linguagem natural e métodos analíticos.

Processamento de Linguagem Natural (PLN) - Clique Aqui

Essa foi a introdução de uma aplicação prática, onde o cientista de dados poderá aplicar os conceitos da Inteligência Artificial. No próximo post apresentarei a manipulação de textos usando a linguagem Python.