“Discovering a Domain-Specific Schema from General-Purpose Knowledge Base” é a tese apresentada no dia 13 de junho, por Everaldo Costa
O Programa de Pós-Graduação acadêmico em Ciência da Computação (PPGCC) do Centro de Informática (CIn) da UFPE é um dos mais importantes programas da área no Brasil e, no dia 13 de junho de 2023, atinge o expressivo número de 600 teses de Doutorado defendidas. O aluno Everaldo Costa Silva Neto desenvolveu o trabalho intitulado “Discovering a Domain-Specific Schema from General-Purpose Knowledge Base”, sob orientação da Profa. Ana Carolina Brandão Salgado e coorientação do Prof. Luciano de Andrade Barbosa.
A apresentação de modalidade virtual aconteceu às 9h, com presença da seguinte Banca Examinadora: Prof. Fernando da Fonseca de Souza (UFPE / Centro de Informática), Prof. Altigran Soares da Silva (UFAM / Instituto de Computação), Prof. Damires Yluska Souza Fernandes (IFPB / Unidade Acadêmica de Informática), Prof. André Câmara Alves do Nascimento (UFRPE / Departamento de Computação) e Prof. Carlos Eduardo Santos Pires (UFCG / Departamento de Sistemas e Computação).
Para Leopoldo Motta Teixeira, professor do CIn-UFPE e Coordenador da pós-graduação acadêmica, este marco representa “um símbolo da contribuição do CIn-UFPE para a formação de recursos humanos de alta qualidade, que seguem suas carreiras integrando instituições de ensino e pesquisa no país e exterior, além daqueles que seguem carreira na indústria, seja no ecossistema de tecnologia de Pernambuco ou em outras partes do Brasil. Isto reforça a relevância do centro para a sociedade e pavimenta mais um degrau na consolidação do papel de liderança do CIn na área de Computação”.
A pesquisa buscou descobrir um esquema específico de domínio a partir da base de conhecimento de uso geral. Exemplos dessas bases são DBpedia, YAGO e Wikidata, porque armazenam dados factuais sobre um conjunto de entidades. Elas são construídas para reunir conhecimento de múltiplos domínios, como saúde, entretenimento, indústria, esportes e artes. A maioria das aplicações que utilizam dados de bases de conhecimento de propósito geral são específicas para um domínio.
Algumas tarefas, como formulação de consulta e extração da informação, exigem um esquema de dados para explorar o conteúdo de uma base de conhecimento. Entretanto, declarações específicas de esquema não são mandatórias e, algumas vezes, não são fornecidas. Por isso, aplicações específicas para um domínio enfrentam dois problemas: (1) elas requerem apenas um subconjunto de dados de interesse ao domínio da aplicação, mas as bases de conhecimento de propósito geral possuem um grande volume de dados factuais em diferentes domínios; e (2) falta de informações relacionadas ao esquema.
Esta tese, então, desenvolveu o ANCHOR, um pipeline ponta-a-ponta que tem como objetivo identificar, de maneira automática, um conjunto de dados para um domínio específico bem como a sua descrição de esquema. Ele é dividido em três etapas: descoberta de domínio, identificação de classe e mineração de esquema. Para isso, ANCHOR executa a CoFFee, uma abordagem baseada na ocorrência e frequência dos atributos para identificar um conjunto de atributos centrais para cada classe descoberta na etapa anterior.
Foi realizada uma avaliação extensiva e experimental em quatro domínios da DBpedia. Na tarefa de identificação de classe, comparou o ANCHOR com baselines tradicionais e baseados em embeddings. Os resultados mostraram que, utilizando os algoritmos de agrupamento clássicos, a representação de entidade proposta nesta tese superou as baselines, mostrando ser eficiente para a tarefa de identificação de classe.
Já na tarefa de mineração de esquema, comparou CoFFee com duas abordagens do estado da arte. Os resultados indicam que a CoFFee é eficaz para filtrar atributos menos relevantes, pois ele seleciona um conjunto de atributos centrais mantendo a taxa de recuperação alta e produzindo um esquema de alta qualidade para as classes identificadas.
Tais resultados favoráveis reforçam a qualidade do conhecimento desenvolvido no ambiente da Pós-Graduação do Centro. Avaliado pela Comissão de Aperfeiçoamento de Pessoal do Nível Superior (CAPES) com nota 7, valor máximo possível para qualquer programa nacional, está entre os sete mais conceituados do país. O programa trabalha para construção e manutenção contínua de um centro de excelência e referência em ensino e pesquisa, que gera impacto no campo da Ciência e Tecnologia da Informação e Comunicação (TIC).
Comentários desativados