Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 2.019

Aluna: Jessica Tais de Souza Reinaldo
Orientador: Prof. Ricardo Bastos Cavalcante Prudêncio
Coorientador: Prof. Telmo de Menezes e Silva Filho  (UFPB)
Título: Using Item Response Theory to evaluate feature relevance in missing 
data scenarios
Data: 29/03/2022
Hora/Local: 9h – Virtual – Interessados em assistir entrar em contato com a aluna
Banca Examinadora:
Prof. George Darmiton da Cunha Cavalcanti (UFPE / Centro de Informática)
Prof. Rafael Gomes Mantovani  (UTFPR / Campus Apucarana )
Prof. Ricardo Bastos Cavalcante Prudêncio (UFPE / Centro de Informática)


RESUMO:

A Teoria de Resposta ao Item (em inglês, Item Response Theory – IRT) tem 
sido historicamente usada para avaliar as habilidades latentes de 
respondentes humanos a um conjunto de itens.
Recentemente, esforços têm sido feitos para propor soluções que utilizem a 
TRI para resolver problemas de classificação, onde os respondentes são 
classificadores e os itens são as instâncias de um conjunto de dados.
O β^3-IRT oferece uma ferramenta poderosa para analisar conjuntos de dados 
e classificadores, pois formula o problema de TRI com duas variáveis 
latentes (2-PL), onde as instâncias são descritas em termos de dificuldade 
e discriminação, e os classificadores têm um habilidade associada. A 
formulação do β^3-IRT  permite utilizar a predição da probabilidade de cada 
classificador para cada instância, o que é uma abordagem muito mais rica em 
informação do que modelos anteriores que propunham utilizar simplesmente 
uma resposta dicotômica, isto é, apenas mapeando erros e acertos de cada 
classificador na predição de cada instância.
Uma aplicação possível de TRI em problemas de classificação é utiliza-la 
para resolver problemas em que faltam dados no momento do teste.
A falta de dados é um problema desafiador na classificação, principalmente 
quando ocorre no momento de teste, ou seja, quando um classificador que já 
foi treinado com os dados completos precisa ser usado para fornecer uma 
previsão para uma nova instância, para a qual está faltando o valor de 
alguma variável. Nesses casos, antes de aplicar o classificador, deve-se 
decidir se vale a pena adquirindo o valor real do recurso ou apenas 
imputando o valor ausente. A imputação pode
ser uma alternativa melhor, por exemplo, se a coleta de recursos for muito 
cara e/ou não se espera que o recurso seja realmente relevante para 
melhorar a qualidade do classificador
predição.
Neste trabalho, propomos um workflow onde esses dados faltantes em tempo de 
teste são preenchidos com valores imputados com diferentes técnicas de 
imputação, baseado nos dados de treinamento disponíveis, a fim de avaliar o 
quanto esses dados faltantes podem afetar a habilidade dos classificadores 
e a dificuldade e discriminação das instâncias em um conjunto de dados.
Essa abordagem representa uma alternativa às técnicas de seleção de 
atributos que é capaz de fornecer uma visão geral da relevância dos 
recursos tanto em nível global quanto individualmente para cada instância.
A análise do desempenho de classificadores e como a falta de dados impacta 
os modelos e as instâncias do ponto de vista da TRI ainda não foi 
investigada na literatura.

Palavras-chave: item response theory, model evaluation, missing data, 
feature gathering, feature importance

Comentários desativados