Automatic assessment of reading ability of children

Proença, Jorge Daniel Leonardo

Utilize este identificador para referenciar este registo: https://hdl.handle.net/10316/83815

Título:	Automatic assessment of reading ability of children
Outros títulos:	Avaliação automática da capacidade de leitura de crianças
Autor:	Proença, Jorge Daniel Leonardo
Orientador:	Perdigão, Fernando Manuel dos Santos Candeias, Sara Maria Fernandes Rato e Costa Marques
Palavras-chave:	Automatic speech recognition; child speech; disfluency detection; reading aloud performance; reconhecimento automático de fala; fala de crianças; deteção de disfluências; capacidade de leitura em voz alta
Data:	26-Nov-2018
Projeto:	FCT SFRH/BD/97204/2013
Local de edição ou do evento:	Coimbra
Resumo:	The work detailed in this thesis proposes solutions to automatically evaluate the reading ability of children, targeted towards European Portuguese. Contributions were made towards the state of the art of reading assessment by using sentences and pseudowords, proposing sentence utterance segmentation strategies that consider disfluencies and by proposing multiple features both for mispronunciation classification and overall reading performance estimation. Knowing how to read is one of the most important markers of a child's cognitive development. Teachers usually have to expend a large effort to properly evaluate a child's reading aloud performance on a 1-on-1 basis, manually taking notes for accuracy and time. A tool that records and automatically analyzes reading tasks could be an important complement for reading evaluation. The objectives of this work were to develop methods that support an automatic reading evaluation of children 6 to 10 years old. Providing an overall reading aloud level score can be useful to quickly get an appreciation of a child's ability and follow their evolution along time and to combine the information of several metrics that teachers take into account when evaluating a child. A large European Portuguese database of children reading aloud was collected to have sufficient data to train acoustic models and to have a large number of examples of reading disfluencies. The reading tasks presented to children were carefully designed by selecting appropriate sentences and generating pseudowords, distributed throughout tasks according to a difficulty metric. Several types of disfluencies were identified, with the most common being mispronunciations, false-starts, repetitions and intra-word pauses. Consequently, these were the ones targeted for automatic detection. Several strategies were developed to automatically detect reading disfluencies and get automatic annotation of utterances. All followed the same two-step basis: segmentation that detects extra content, and mispronunciation classification. First, segmentation is achieved by constrained decoding lattices based on the ideal pronunciation of the prompt text but allowing freedom of repetition and syllable-based false starts. The best approach uses syllables as units and allows optional silence between each syllable to address the problem of intra-word pauses. Decoding an utterance results in word candidate segments that will be classified as correctly pronounced or not. The best performing feature to classify mispronunciations was a log-likelihood ratio between the ideal pronunciation and a free-phone-loop filler model, done in a word-spotting manner. Additional features of likelihoods of individual phonemes and Levenshtein distances between correct pronunciation and recognized phonemes are combined in multi-feature models. Elementary school teachers were asked to rate the overall reading level score of children as 0-5, resulting in a ground truth of reading score. Regression models to estimate these scores were trained based on performance features extracted from the automatic annotation, with separate features for the reading of sentences or pseudowords. Gaussian process regression models achieved the best results from automatic annotation, with results closely approaching the use of features extracted from manual annotation. Two applications of the developed work were built: a demo and a prototype website. The demo application showcases the methodology applied to the children of the collected dataset. The prototype website is a platform for teachers where they can assign reading tasks to several students, tell children to read tasks using a microphone, and analyze the automatically given performance score and utterance annotations. O trabalho detalhado nesta tese propõe soluções para automaticamente avaliar a capacidade de leitura de crianças, tendo como alvo o Português europeu. Foram feitas contribuições para o estado da arte de avaliação de leitura ao usar frases e pseudopalavras, ao propor estratégias de segmentação de locuções de frases que consideram disfluências e ao propor vários parâmetros quer para classificação de pronunciações incorretas como para estimação de capacidade de leitura geral. Saber ler é um dos mais importantes marcadores do desenvolvimento cognitivo de uma criança. Os professores têm habitualmente de despender um grande esforço a avaliar decentemente a capacidade de leitura em voz alta de uma criança, um a um, manualmente tirando notas de exatidão e tempo. Uma ferramenta que grave e automaticamente analise tarefas de leitura poderá ser um importante complemento à avaliação de leitura. Os objetivos deste trabalho foram desenvolver métodos que suportem uma avaliação automática da leitura de crianças de 6 a 10 anos de idade. Fornecer um valor de nível geral de leitura em voz alta pode ser útil para rapidamente obter um apreciação da capacidade de uma criança e seguir a sua evolução ao longo do tempo e para combinar a informação de várias métricas que os professores têm em conta quando avaliam uma criança. Uma grande base de dados de Português europeu de crianças a ler em voz alta foi adquirida para ter dados suficientes para treino de modelos acústicos e para ter um largo número de exemplos de disfluências da leitura. As tarefas de leitura apresentadas às crianças foram cuidadosamente construídas seleccionando frases apropriadas e gerando pseudopalavras, distribuídas ao longo das tarefas de acordo com uma métricas de dificuldade. Vários tipos de disfluências foram identificados, com os mais comuns sendo pronunciações incorretas, pré-correções, repetições e pausas intra-palavra. Consequentemente, estes foram o alvo de detecção automática. Foram desenvolvidas várias estratégias para automaticamente detetar disfluências da leitura e obter anotação automática de locuções. Todas seguiram a mesma base de duas fases: segmentação que deteta conteúdo extra, e classificação de pronunciações incorretas. Primeiro, segmentação é conseguida por gramáticas de descodificação restritas baseadas na pronunciação ideal do texto mas permitindo liberdade de repetição e pré-correções baseadas em sílabas. O melhor método usa sílabas como unidades e permite silêncio opcional entre cada sílaba para responder ao problema de pausas intra-palavra. Descodificar uma locução resulta em segmentos candidatos de palavra que serão classificados como correta ou incorretamente pronunciados. O melhor parâmetro para classificar pronunciações incorretas foi uma razão de verosimilhança logarítmica entre a pronunciação ideal e um modelo de enchimento com todos os fones em paralelo, feita de uma forma semelhante a deteção de palavras. Parâmetros adicionais de verosimilhanças individuais de fonemas e de distâncias de Levenshtein entre pronunciação correta e fonemas reconhecidos foram combinados em modelos de múltiplos parâmetros. Professores do 1º ciclo do ensino básico foram convidados a avaliar o nível geral de leitura de crianças em 0-5, resultando em valores de referência. Modelos de regressão que estimem estes valores foram treinados baseados em parâmetros extraídos da anotação automática, com parâmetros diferentes para a leitura de frases e de pseudopalavras. Modelos de regressão de processos Gaussianos obtiveram os melhores resultados com anotação automática, resultados que se aproximaram do uso de parâmetros extraídos da anotação manual. Duas aplicações do trabalho desenvolvido foram construídas: uma demo e um website protótipo. A demo apresenta a metodologia desenvolvida aplicada às crianças da base de dados adquirida. O website protótipo é uma plataforma para professores onde estes podem atribuir tarefas de leitura a vários alunos, dizer às crianças para lerem tarefas usando um microfone, e analisar o nível de leitura automático e a anotação automática.
Descrição:	Tese no âmbito do doutoramento em Engenharia Electrotécnica e de Computadores, especialização em Computadores e Electrónica, apresentada à Faculdade de Ciências e Tecnologia da Universidade de Coimbra.
URI:	https://hdl.handle.net/10316/83815
Direitos:	openAccess
Aparece nas coleções:	FCTUC Eng.Electrotécnica - Teses de Doutoramento UC - Teses de Doutoramento

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
Automatic Assessment of Reading Ability of Children.pdf		6.56 MB	Adobe PDF	Ver/Abrir

Mostrar registo em formato completo

Google Scholar^TM

Verificar

Este registo está protegido por Licença Creative Commons

Ficheiros deste registo:

Google ScholarTM

Google Scholar^TM