Pós-Graduação em Ciência da Computação – UFPE
Defesa de Tese de Doutorado Nº 600

Aluno: Everaldo Costa Silva Neto
Orientadora: Profa. Ana Carolina Brandão Salgado
Coorientador: Prof. Luciano de Andrade Barbosa
Título: Discovering a Domain-Specific Schema from General-Purpose Knowledge Base
Data: 13/06/2023
Hora/Local: 9h  – Virtual – Interessados em assistir entrar em contato com o aluno
Banca Examinadora:
Prof. Fernando da Fonseca de Souza (UFPE / Centro de Informática)
Prof. Altigran Soares da Silva (UFAM / Instituto de Computação)
Prof. Damires Yluska Souza Fernandes (IFPB / Unidade Acadêmica de Informática)
Prof. André Câmara Alves do Nascimento (UFRPE / Departamento de Computação)
Prof. Carlos Eduardo Santos Pires (UFCG / Departamento de Sistemas e Computação)


RESUMO:

Bases de conhecimento de propósito geral, e.g., DBpedia, YAGO e Wikidata, 
armazenam dados factuais sobre um conjunto de entidades. Elas são 
construídas para armazenar conhecimento de múltiplos domínios, e.g., saúde, 
entretenimento, indústria, esportes e artes. A maioria das aplicações que 
utilizam dados de bases de conhecimento de própósito geral são específica 
para um domínio. Alguns tarefas, tais como formulação de consulta e 
extração da informação, requerem um esquema de dados para explorar o 
conteúdo de uma base de conhecimento. Entretanto, declarações específicas 
de esquema não são mandatórias e, algumas vezes, não são fornecidas. 
Portanto, aplicações específicas para um domínio enfrentam dois problemas: 
(1) elas requerem apenas um subconjunto de dados de interesse ao domínio da 
aplicação, mas as bases de conhecimento de propósito geral possuem um 
grande volume de dados factuais em diferentes domínios; e (2) a falta de 
informações relacionadas ao esquema. Nesta tese, endereçamos o problema da 
descoberta de esquema para um domínio específico a partir de bases de 
conhecimento de propósito geral. Especificamente, desenvolvemos ANCHOR, um 
pipeline ponta-a-ponta que tem como objetivo identificar, de maneira 
automática, um conjunto de dados para um domínio específico bem como a sua 
descrição de esquema. ANCHOR é dividido em três etapas: descoberta de 
domínio, identificação de classe e mineração de esquema. Inicialmente, 
ANCHOR extrai um domínio específico explorando os mapeamentos 
categoria-categoria fornecidos pela base de conhecimento. Em seguida, a 
etapa de identificação de classe descobre classes implícitas no conjunto de 
dados. Nesta direção, ANCHOR aprende uma representação para cada entidade 
do conjunto de dados utilizando os mapeamentos entidade-categoria. Essa 
representação é usada para agrupar entidades similares com o objetivo de 
identificar classes de entidades implícitas no conjunto de dados. Por fim, 
a etapa de mineração de esquema constrói o esquema da classe, i.e., 
identifica um conjunto de atributos relavantes que melhor descreve as 
entidades de uma mesma classe. Para isso, ANCHOR executa CoFFee, uma 
abordagem baseada na coocorrência e frequência dos atributos para 
identificar um conjunto de atributos centrais para cada classe descoberta 
na etapa anterior. Realizamos uma extensiva avaliação experimental em 
quatro domínios da DBpedia. Na tarefa de identificação de classe, 
comparamos ANCHOR com baselines tradicionais e baseados em embeedings. Os 
resultados mostraram que, utilizando os algoritmos de agrupamento 
clássicos, a representação de entidade proposta nesta tese superou os 
baselines, mostrando ser eficiente para a tarefa de identificação de 
classe. Na tarefa de mineração de esquema, comparamos CoFFee com duas 
abordagens do estado da arte. Os resultados indicam que CoFFee é eficaz 
para filtrar atributos menos relavantes. Ele seleciona um conjunto de 
atributos centrais mantendo a taxa de recuperação alta e produzindo um 
esquema de alta qualidade para as classes identificadas.

Palavras-chave: Descoberta de Esquema; Descoberta do Domínio; Representação 
de Entidade; Identificação de Classe; Mineração de Esquema.

Comentários desativados

Sobre este site

Portal institucional do Centro de Informática – UFPE

Encontre-nos

Endereço
Av. Jornalista Aníbal Fernandes, s/n – Cidade Universitária.
Recife-PE – Brasil
CEP: 50.740-560

Horário
Segunda–Sexta: 8:00–18:00