Aluno: Mailton Fernandes de Carvalho
Orientador: Prof. Ricardo Bastos Cavalcante Prudêncio
Co-orientador: Profa. Flávia de Almeida Barros
Título: Um processo para construção de Tesauros de Domínio Específico no 
Contexto de uma Empresa de Teste de Software
Data: 25/11/2021
Hora/Local: 8h – Virtual – Interessados em assistir entrar em contato com o aluno
Banca Examinadora:
Prof. Alexandre Cabral Mota  (UFPE / Centro de Informática)
Prof.  Rafael Ferreira Leite de Mello (UFRPE / Departamento de Computação)
Prof. Flavia de Almeida Barros  (UFPE / Centro de Informática)


RESUMO:

Grandes empresas de software geralmente mantêm repositórios com milhares de documentos textuais (e.g., documentos de requisitos, casos de teste, solicitações de mudança de código). Contudo, devido à falta de um vocabulário padrão, muitas vezes esses documentos utilizam palavras distintas para se referir à mesma entidade no domínio da aplicação. Isso dificulta o processamento automático dos textos, principalmente em sistemas de indexação e recuperação de informação através de palavras-chaves. Devido a essas variações de terminologia, os termos usados nas consultas nem sempre estão presentes nos documentos relevantes (por exemplo, “foto” x “imagem”). Assim, a consulta não irá recuperar todos os documentos relevantes existentes, a fim de garantir a finalização adequada da atividade em curso.


Uma solução frequentemente adotada para melhorar o desempenho de sistemas de processamento de texto é a utilização de um dicionário de sinônimos (um tesauro). Esses dicionários associam termos sinônimos ou relacionados em conjuntos de termos equivalentes. Tesauros são frequentemente usados para melhorar o desempenho de sistemas de recuperação de documentos, geralmente através da expansão automática das consultas construídas pelo usuário. Essa operação adiciona termos correlacionados à consulta original, ampliando as chances do sistema recuperar documentos relevantes. Vale ressaltar que tesauros têm outros usos importantes no processamento de texto, como por exemplo melhorar o desempenho de classificadores de texto ou prover um vocabulário padrão, entre outros.

Nesse contexto, este trabalho propõe um processo para a construção automática de tesauros de domínio específico com base em documentos disponíveis em repositórios locais de empresas SW. O objetivo é evitar termos ambíguos ou não correlacionados no domínio, encontrados em tesauros genéricos (como o WordNet). O sistema implementado foi usado para gerar um tesauro de domínio específico a partir de documentos de uma empresa de teste de software. O sistema recebe como entrada documentos da empresa, como Solicitações de Mudança de código e descrições de Casos de Teste, e extrai desses documentos os termos relevantes para esse domínio específico. Em seguida, os termos relacionados são agregados em conjuntos. A seguir, o sistema usa técnicas de Processamento de Linguagem Natural, como PoS-tagging, RegEx e n-grams, para enriquecer o tesauro com termos compostos (e.g., “finger print”), acrônimos (e.g., “FP”) e abreviações (e.g., “cam” para “câmera”). Finalmente, os conjuntos de palavras / termos relacionados são indexados e disponibilizados para consulta manual ou automática. O tesauro criado foi usado na expansão automática de consultas para melhorar o desempenho de dois sistemas de recuperação de documentos, apresentando resultados bastante satisfatórios. Os resultados obtidos foram relatados em um artigo científico publicado pelo SBES 2021. Este trabalho foi realizado no contexto de um projeto de cooperação em pesquisa entre a Motorola Mobility (uma empresa Lenovo) e o Centro de Informática (CIn-UFPE).

Palavras-chave: Criação automática de tesauros; Inteligência Artificial; 
Processamento de Linguagem Natural; Recuperação de Informação.

Comentários desativados