Pós-Graduação em Ciência da Computação – UFPE
Defesa de Tese de Doutorado Nº 615
Aluno: Levy de Souza Silva
Orientador: Prof. Luciano de Andrade Barbosa
Título: Finding Structured Data From Text Using Language Models
Data: 07/12/2023
Hora/Local: 14h30m – Virtual – Interessados em assistir entrar em contato com o aluno
Banca Examinadora:
Prof. Leandro Maciel Almeida (UFPE / Centro de Informática )
Prof. Fernando Maciano de Paula Neto (UFPE / Centro de Informática )
Prof. Mirella Moura Moro (UFMG / Departamento de Ciência da Computação)
Prof. Rafael Ferreira Leite de Mello (UFRPE / Departamento de Computação)
Prof. Rodrigo Frassetto Nogueira (UNICAMP / Departamento de Engenharia de Computação e Automação)
RESUMO:
A Internet é uma rica fonte de informação estruturada. De tabelas HTML até coleções de dados públicos, existe um enorme conjunto de dados relacionais online. Estudos anteriores estimam que mais de 100 milhões de tabelas, em formato HTML, podem ser encontradas na Internet. Não se limitando a estas, um grande número de repositórios de dados fornecem acesso a milhares de coleções estruturadas. Como resultado, nos últimos anos, vários estudos exploram estes dados em diversas aplicações. Por exemplo, tabelas HTML são utilizadas para a tarefa de perguntas e respostas, onde o objetivo é recuperar uma tabela que responda a uma pergunta de uma coleção de tabelas. No contexto de dados públicos, a principal aplicação é a busca por conjunto de dados, que encontra uma coleção de dados para um usuário final. O ponto de intersecção destas tarefas é a correspondência de dados estruturados e não estruturados, além de uma tarefa de classificação. Ademais, o principal desafio é construir um modelo robusto para calcular a similaridade entre perguntas e tabelas. Nesse contexto, este trabalho de tese está dividido em três partes. Na primeira, exploramos o problema de recuperação de tabelas para perguntas e respostas, sumarizando as melhores soluções para esta tarefa. Em seguida, introduzimos uma nova tarefa para correlação de notícias e tabelas, aplicadas para expandir o conteúdo das notícias. Por fim, focamos na tarefa de busca por conjuntos de dados. Especificamente, as principais contribuições desta tese são: (I) nós apresentamos uma nova taxonomia para a tarefa de recuperação de tabelas que classifica os métodos em cinco grupos, desde abordagens probabilísticas até redes neurais sofisticadas. Este estudo também aponta que os melhores resultados para esta tarefa são alcançados por meio de modelos de redes neurais profundas, utilizando redes recorrentes e arquiteturas convolucionais; (II) nós introduzimos um novo modelo de atenção baseado em BERT para calcular o grau de similaridade entre notícias e tabelas, além de comparar seu desempenho com técnicas de recuperação de informação, codificadores de sentenças e documentos, modelos de correspondência de textos e abordagens de redes neurais. Em resumo, um teste de hipótese confirma que nossa abordagem supera todos os outros modelos considerando uma métrica de classificação média; e (III) nós propomos DAPDR, uma solução que usa modelos de linguagens para criar perguntas sintéticas para coleções de dados, que são aplicadas no treinamento de modelos supervisionados. Por fim, DAPDR é avaliado utilizando dados experimentais para esta tarefa e modelos densos de recuperação de informação, cujos principais resultados mostram que os modelos ajustados em DAPDR superam estatisticamente os modelos originais em diferentes níveis de NDCG.
Palavras-chave: Tabelas Estruturadas; Recuperação de Tabelas; Correspondência de Notícias e Tabelas; Compreensão de Notícias; Busca por Conjunto de Dados; Geração de Consultas; Modelos de Linguagem.
Comentários desativados