Pós-Graduação em Ciência da Computação – UFPE
Defesa de Tese de Doutorado Nº 602


Aluna: Chaina Santos Oliveira
Orientador: Ricardo Bastos Cavalcante Prudêncio
Co-orientador:
Título: A Two-Level Item Response Theory Model to Evaluate Automatic Speech 
Synthesis and Recognition Systems
Data: 19/06/2023
Hora/Local: 9h – Virtual – Interessados em assistir entrar em contato com a aluna
Banca Examinadora:
– Prof.  Tsang Ing Ren (UFPE / Centro de Informática)
– Prof. George Darmiton da Cunha Cavalcanti (UFPE / Centro de Informática)
– Prof. Jugurta Rosa Montalvao Filho (UFS / Departamento de Engenharia 
Elétrica)
– Prof. Ronnie Cley de Oliveira Alves (ITV / Instituto Tecnológico Vale)
– Profa. Gisele Lobo Pappa (UFMG / Departamento de Ciência da Computação)

RESUMO:
Sistemas de reconhecimento da fala têm se tornado populares em diversas 
aplicações. Idealmente, tais sistemas devem ser testados em diferentes 
cenários, com diversos tipos de falas, sentenças e locutores. Adquirir 
dados de teste a partir de falas humanas gravadas é custoso em questão de 
tempo. Uma alternativa é usar ferramentas text-to-speech (TTS) para 
sintetizar áudios dado um conjunto de sentenças e locutores virtuais. Desta 
forma, o sistema que está sendo testado recebe um áudio sintetizado, faz a 
transcrição e os erros de transcrição são coletados para posterior 
avaliação. Apesar da grande disponibilidade de serviços de síntese da fala, 
nem todas as falas sintetizadas têm a mesma qualidade. É importante avaliar 
a utilidade dos locutores e das sentenças para a avaliação do sistema de 
reconhecimento da fala. Assim, este trabalho propõe um modelo de Teoria de 
Resposta ao Item (TRI) de dois níveis para avaliar locutores, sentenças e 
sistemas de reconhecimento da fala, o que é original na literatura. TRI é 
uma abordagem da psicometria para estimar a habilidade de respondentes 
humanos, tendo como base as suas respostas a itens com diferentes níveis de 
dificuldade. No primeiro nível do modelo proposto, um item é uma fala 
sintética, um respondente é um sistema de reconhecimento da fala, e cada 
resposta é a acurácia da transcrição de uma fala sintetizada por um sistema 
de reconhecimento da fala. Um modelo de TRI é, então, usado para estimar a 
dificuldade de cada fala sintetizada e a habilidade do sistema de 
reconhecimento da fala. No segundo nível, a dificuldade de cada fala 
sintética é decomposta em dois fatores: a dificuldade da sentença e a 
qualidade do locutor. A dificuldade da fala sintética tende a ser alta 
quando ela é gerada a partir de uma sentença difícil e um locutor ruim. A 
habilidade de um sistema de reconhecimento da fala é alta quando ele é 
robusto a falas difíceis. Antes de executar experimentos com o modelo TRI 
de dois níveis proposto neste trabalho, nós executamos um estudo de caso 
preliminar para verificar a viabilidade de aplicar TRI no contexto de 
avaliação da fala. Nesta experimentação inicial, um modelo TRI de um nível 
foi usado para avaliar 62 locutores (de quatro sistemas de síntese da fala) 
e 12 sentenças. Os resultados mostraram a relevância de aplicar TRI para 
avaliar sentenças e locutores dentro deste contexto, o que nos estimulou a 
elaborar outros estudos de caso. Em seguida, desenvolvemos o modelo TRI de 
dois níveis e executamos experimentos usando tal abordagem. Desta vez, 
quatro sistemas de reconhecimento da fala foram adotados para transcrever 
as falas sintéticas resultantes de 100 sentenças de benchmark e 75 
locutores. Os experimentos mostraram como a qualidade da síntese e 
reconhecimento das falas pode ser afetada por fatores diversos, como a 
dificuldade da sentença e a habilidade dos locutores. Também exploramos o 
impacto de pitch, rate e da inserção de ruído na estimação dos parâmetros e 
no desempenho dos sistemas.

Palavras-chave: 
Teoria de Resposta ao Item. Avaliação de Benchmark de Fala. 
Avaliação de Reconhecimento da Fala. Avaliação de Síntese de Fala. 
Qualidade da fala.

Comentários desativados

Sobre este site

Portal institucional do Centro de Informática – UFPE

Encontre-nos

Endereço
Av. Jornalista Aníbal Fernandes, s/n – Cidade Universitária.
Recife-PE – Brasil
CEP: 50.740-560

Horário
Segunda–Sexta: 8:00–18:00