Pós-Graduação em Ciência da Computação – UFPE
Defesa de Tese de Doutorado Nº 602
Aluna: Chaina Santos Oliveira
Orientador: Ricardo Bastos Cavalcante Prudêncio
Co-orientador:
Título: A Two-Level Item Response Theory Model to Evaluate Automatic Speech
Synthesis and Recognition Systems
Data: 19/06/2023
Hora/Local: 9h – Virtual – Interessados em assistir entrar em contato com a aluna
Banca Examinadora:
– Prof. Tsang Ing Ren (UFPE / Centro de Informática)
– Prof. George Darmiton da Cunha Cavalcanti (UFPE / Centro de Informática)
– Prof. Jugurta Rosa Montalvao Filho (UFS / Departamento de Engenharia
Elétrica)
– Prof. Ronnie Cley de Oliveira Alves (ITV / Instituto Tecnológico Vale)
– Profa. Gisele Lobo Pappa (UFMG / Departamento de Ciência da Computação)
RESUMO:
Sistemas de reconhecimento da fala têm se tornado populares em diversas
aplicações. Idealmente, tais sistemas devem ser testados em diferentes
cenários, com diversos tipos de falas, sentenças e locutores. Adquirir
dados de teste a partir de falas humanas gravadas é custoso em questão de
tempo. Uma alternativa é usar ferramentas text-to-speech (TTS) para
sintetizar áudios dado um conjunto de sentenças e locutores virtuais. Desta
forma, o sistema que está sendo testado recebe um áudio sintetizado, faz a
transcrição e os erros de transcrição são coletados para posterior
avaliação. Apesar da grande disponibilidade de serviços de síntese da fala,
nem todas as falas sintetizadas têm a mesma qualidade. É importante avaliar
a utilidade dos locutores e das sentenças para a avaliação do sistema de
reconhecimento da fala. Assim, este trabalho propõe um modelo de Teoria de
Resposta ao Item (TRI) de dois níveis para avaliar locutores, sentenças e
sistemas de reconhecimento da fala, o que é original na literatura. TRI é
uma abordagem da psicometria para estimar a habilidade de respondentes
humanos, tendo como base as suas respostas a itens com diferentes níveis de
dificuldade. No primeiro nível do modelo proposto, um item é uma fala
sintética, um respondente é um sistema de reconhecimento da fala, e cada
resposta é a acurácia da transcrição de uma fala sintetizada por um sistema
de reconhecimento da fala. Um modelo de TRI é, então, usado para estimar a
dificuldade de cada fala sintetizada e a habilidade do sistema de
reconhecimento da fala. No segundo nível, a dificuldade de cada fala
sintética é decomposta em dois fatores: a dificuldade da sentença e a
qualidade do locutor. A dificuldade da fala sintética tende a ser alta
quando ela é gerada a partir de uma sentença difícil e um locutor ruim. A
habilidade de um sistema de reconhecimento da fala é alta quando ele é
robusto a falas difíceis. Antes de executar experimentos com o modelo TRI
de dois níveis proposto neste trabalho, nós executamos um estudo de caso
preliminar para verificar a viabilidade de aplicar TRI no contexto de
avaliação da fala. Nesta experimentação inicial, um modelo TRI de um nível
foi usado para avaliar 62 locutores (de quatro sistemas de síntese da fala)
e 12 sentenças. Os resultados mostraram a relevância de aplicar TRI para
avaliar sentenças e locutores dentro deste contexto, o que nos estimulou a
elaborar outros estudos de caso. Em seguida, desenvolvemos o modelo TRI de
dois níveis e executamos experimentos usando tal abordagem. Desta vez,
quatro sistemas de reconhecimento da fala foram adotados para transcrever
as falas sintéticas resultantes de 100 sentenças de benchmark e 75
locutores. Os experimentos mostraram como a qualidade da síntese e
reconhecimento das falas pode ser afetada por fatores diversos, como a
dificuldade da sentença e a habilidade dos locutores. Também exploramos o
impacto de pitch, rate e da inserção de ruído na estimação dos parâmetros e
no desempenho dos sistemas.
Palavras-chave: Teoria de Resposta ao Item. Avaliação de Benchmark de Fala.
Avaliação de Reconhecimento da Fala. Avaliação de Síntese de Fala.
Qualidade da fala.
Comentários desativados