Žodžių atpažinimo, grįsto paslėptaisiais Markovo modeliais, vizualizavimo ir analizės programinė įranga
Informacinės technologijos ir kalba
Živilė Ringelienė
Mark Filipovič
Published 2011-01-01
https://doi.org/10.15388/Im.2011.0.3150
63-72.pdf

How to Cite

Ringelienė, Živilė, & Filipovič, M. (2011). Žodžių atpažinimo, grįsto paslėptaisiais Markovo modeliais, vizualizavimo ir analizės programinė įranga. Information & Media, 56, 63-72. https://doi.org/10.15388/Im.2011.0.3150

Abstract

Straipsnyje aprašomas atpažinimo, grįsto paslėptaisiais Markovo modeliais, sistemos prototipo veikimas. Ši programinė įranga skirta lietuvių kalbos žodžių atpažinimui tirti. Nagrinėjama, kaip sistemos pateikiama informacija apie žodžių atpažinimo procesą ir rezultatus padeda analizuoti klaidų priežastis. Žodžio atpažinimas priklauso nuo žodžio ribų nustatymo tikslumo. Signalo, energijos, žodžio ribų vizualizavimas leidžia lengviau įvertinti, ar sistema teisingai nustatė ribas. Jei žodis atpažintas
klaidingai dėl to, kad buvo blogai nustatytos ribos, galima keisti sistemos parametrų, darančių įtaką ribų nustatymo tikslumui, reikšmes. Tam tikrais atvejais tai pagerina atpažinimo rezultatus. Žodžio paieškos vaizdavimas padeda įvertinti kiekvieno fonemos modelio įtaką žodžio atpažinimui ir parinkti žodžių transkripcijas, kurios pagerina atpažinimo rezultatus.

A Tool for Visualization and Analysis of Isolated Word Recognition Based on the Hidden Markov Models
Živilė Ringelienė, Mark Filipovič

Summary
The paper presents a prototype of the isolated word recognition system based on hidden Markov models. The developed prototype of the speakerindependent Lithuanian isolated word recognition system is handy for recognition experiments and the analysis of their results. The user is provided with numeric and visual recognition information on the results. The word recognition pivots on the precision of the determination of the word limits. The main window contains a recognized word and its logarithmic likelihood, a visible waveform of the speech signal, the depicted energy of the speech signal, the identified word boundaries and energy detection thresholds. If the system misrecognized the word, such visualization enables to identify easier whether it resulted from wrong end-point detection. The segmentation window provides with a list of words which acoustic models to the given speech signal are the best, the scores of their likelihood and a diagram of the most likely sequence of the phoneme models aligned with the speech signal. Such visualization helps to analyze recognition errors and the impact of each phoneme model on the recognition accuracy. Results of preliminary experiments have shown that by changing the transcription of some words the recognition accuracy can be increased.

63-72.pdf

Downloads

Download data is not yet available.