Pós-Graduação em Ciência da Computação – UFPE
Defesa de Dissertação de Mestrado Nº 2.019
Aluna: Jessica Tais de Souza Reinaldo
Orientador: Prof. Ricardo Bastos Cavalcante Prudêncio
Coorientador: Prof. Telmo de Menezes e Silva Filho (UFPB)
Título: Using Item Response Theory to evaluate feature relevance in missing
data scenarios
Data: 29/03/2022
Hora/Local: 9h – Virtual – Interessados em assistir entrar em contato com a aluna
Banca Examinadora:
Prof. George Darmiton da Cunha Cavalcanti (UFPE / Centro de Informática)
Prof. Rafael Gomes Mantovani (UTFPR / Campus Apucarana )
Prof. Ricardo Bastos Cavalcante Prudêncio (UFPE / Centro de Informática)
RESUMO:
A Teoria de Resposta ao Item (em inglês, Item Response Theory – IRT) tem
sido historicamente usada para avaliar as habilidades latentes de
respondentes humanos a um conjunto de itens.
Recentemente, esforços têm sido feitos para propor soluções que utilizem a
TRI para resolver problemas de classificação, onde os respondentes são
classificadores e os itens são as instâncias de um conjunto de dados.
O β^3-IRT oferece uma ferramenta poderosa para analisar conjuntos de dados
e classificadores, pois formula o problema de TRI com duas variáveis
latentes (2-PL), onde as instâncias são descritas em termos de dificuldade
e discriminação, e os classificadores têm um habilidade associada. A
formulação do β^3-IRT permite utilizar a predição da probabilidade de cada
classificador para cada instância, o que é uma abordagem muito mais rica em
informação do que modelos anteriores que propunham utilizar simplesmente
uma resposta dicotômica, isto é, apenas mapeando erros e acertos de cada
classificador na predição de cada instância.
Uma aplicação possível de TRI em problemas de classificação é utiliza-la
para resolver problemas em que faltam dados no momento do teste.
A falta de dados é um problema desafiador na classificação, principalmente
quando ocorre no momento de teste, ou seja, quando um classificador que já
foi treinado com os dados completos precisa ser usado para fornecer uma
previsão para uma nova instância, para a qual está faltando o valor de
alguma variável. Nesses casos, antes de aplicar o classificador, deve-se
decidir se vale a pena adquirindo o valor real do recurso ou apenas
imputando o valor ausente. A imputação pode
ser uma alternativa melhor, por exemplo, se a coleta de recursos for muito
cara e/ou não se espera que o recurso seja realmente relevante para
melhorar a qualidade do classificador
predição.
Neste trabalho, propomos um workflow onde esses dados faltantes em tempo de
teste são preenchidos com valores imputados com diferentes técnicas de
imputação, baseado nos dados de treinamento disponíveis, a fim de avaliar o
quanto esses dados faltantes podem afetar a habilidade dos classificadores
e a dificuldade e discriminação das instâncias em um conjunto de dados.
Essa abordagem representa uma alternativa às técnicas de seleção de
atributos que é capaz de fornecer uma visão geral da relevância dos
recursos tanto em nível global quanto individualmente para cada instância.
A análise do desempenho de classificadores e como a falta de dados impacta
os modelos e as instâncias do ponto de vista da TRI ainda não foi
investigada na literatura.
Palavras-chave: item response theory, model evaluation, missing data,
feature gathering, feature importance
Comentários desativados