Pós-Graduação em Ciência da Computação – UFPE
Defesa de Tese de Doutorado Nº 600
Aluno: Everaldo Costa Silva Neto
Orientadora: Profa. Ana Carolina Brandão Salgado
Coorientador: Prof. Luciano de Andrade Barbosa
Título: Discovering a Domain-Specific Schema from General-Purpose Knowledge Base
Data: 13/06/2023
Hora/Local: 9h – Virtual – Interessados em assistir entrar em contato com o aluno
Banca Examinadora:
Prof. Fernando da Fonseca de Souza (UFPE / Centro de Informática)
Prof. Altigran Soares da Silva (UFAM / Instituto de Computação)
Prof. Damires Yluska Souza Fernandes (IFPB / Unidade Acadêmica de Informática)
Prof. André Câmara Alves do Nascimento (UFRPE / Departamento de Computação)
Prof. Carlos Eduardo Santos Pires (UFCG / Departamento de Sistemas e Computação)
RESUMO:
Bases de conhecimento de propósito geral, e.g., DBpedia, YAGO e Wikidata,
armazenam dados factuais sobre um conjunto de entidades. Elas são
construídas para armazenar conhecimento de múltiplos domínios, e.g., saúde,
entretenimento, indústria, esportes e artes. A maioria das aplicações que
utilizam dados de bases de conhecimento de própósito geral são específica
para um domínio. Alguns tarefas, tais como formulação de consulta e
extração da informação, requerem um esquema de dados para explorar o
conteúdo de uma base de conhecimento. Entretanto, declarações específicas
de esquema não são mandatórias e, algumas vezes, não são fornecidas.
Portanto, aplicações específicas para um domínio enfrentam dois problemas:
(1) elas requerem apenas um subconjunto de dados de interesse ao domínio da
aplicação, mas as bases de conhecimento de propósito geral possuem um
grande volume de dados factuais em diferentes domínios; e (2) a falta de
informações relacionadas ao esquema. Nesta tese, endereçamos o problema da
descoberta de esquema para um domínio específico a partir de bases de
conhecimento de propósito geral. Especificamente, desenvolvemos ANCHOR, um
pipeline ponta-a-ponta que tem como objetivo identificar, de maneira
automática, um conjunto de dados para um domínio específico bem como a sua
descrição de esquema. ANCHOR é dividido em três etapas: descoberta de
domínio, identificação de classe e mineração de esquema. Inicialmente,
ANCHOR extrai um domínio específico explorando os mapeamentos
categoria-categoria fornecidos pela base de conhecimento. Em seguida, a
etapa de identificação de classe descobre classes implícitas no conjunto de
dados. Nesta direção, ANCHOR aprende uma representação para cada entidade
do conjunto de dados utilizando os mapeamentos entidade-categoria. Essa
representação é usada para agrupar entidades similares com o objetivo de
identificar classes de entidades implícitas no conjunto de dados. Por fim,
a etapa de mineração de esquema constrói o esquema da classe, i.e.,
identifica um conjunto de atributos relavantes que melhor descreve as
entidades de uma mesma classe. Para isso, ANCHOR executa CoFFee, uma
abordagem baseada na coocorrência e frequência dos atributos para
identificar um conjunto de atributos centrais para cada classe descoberta
na etapa anterior. Realizamos uma extensiva avaliação experimental em
quatro domínios da DBpedia. Na tarefa de identificação de classe,
comparamos ANCHOR com baselines tradicionais e baseados em embeedings. Os
resultados mostraram que, utilizando os algoritmos de agrupamento
clássicos, a representação de entidade proposta nesta tese superou os
baselines, mostrando ser eficiente para a tarefa de identificação de
classe. Na tarefa de mineração de esquema, comparamos CoFFee com duas
abordagens do estado da arte. Os resultados indicam que CoFFee é eficaz
para filtrar atributos menos relavantes. Ele seleciona um conjunto de
atributos centrais mantendo a taxa de recuperação alta e produzindo um
esquema de alta qualidade para as classes identificadas.
Palavras-chave: Descoberta de Esquema; Descoberta do Domínio; Representação
de Entidade; Identificação de Classe; Mineração de Esquema.
Comentários desativados