ScienceDirect® Home Skip Main Navigation Links
You have guest access to ScienceDirect. Find out more.
 
Home
Browse
My Settings
Alerts
Help
 Quick Search
 Search tips (Opens new window)
    Clear all fields    
advertisementadvertisement
Speech Communication
Volume 41, Issues 2-3, October 2003, Pages 273-285
 
Font Size: Decrease Font Size  Increase Font Size
 Abstract - selected
Article
Purchase PDF (189 K)

 
 
 
Related Articles in ScienceDirect
View More Related Articles
 
View Record in Scopus
 
doi:10.1016/S0167-6393(02)00122-X    How to Cite or Link Using DOI (Opens New Window)
Copyright © 2002 Elsevier B.V. All rights reserved.

Modeling word-level rate-of-speech variation in large vocabulary conversational speech recognition

Jing ZhengCorresponding Author Contact Information, E-mail The Corresponding Author, Horacio Franco and Andreas Stolcke

Speech Technology and Research Laboratory, SRI International, 333 Ravenswood Avenue, Menlo Park, CA 94025, USA

Received 2 February 2001; 
revised 1 April 2002; 
accepted 22 July 2002. ;
Available online 13 September 2002.

Purchase the full-text article



References and further reading may be available for this article. To view references and further reading you must purchase this article.

Abstract

Variations in rate-of-speech (ROS) produce variations in both spectral features and word pronunciations that affect automatic speech recognition systems. To deal with these ROS effects, we propose to use a set of parallel rate-specific acoustic and pronunciation models. Rate switching is permitted at word boundaries, to allow within-sentence speech rate variation, which is common in conversational speech. Because of the parallel structure of rate-specific models and the maximum likelihood decoding method, our approach does not require ROS estimation before recognition, which is hard to achieve. We evaluate our models on a large vocabulary conversational speech recognition task over the telephone. Experiments on the NIST 2000 Hub-5 development set show that word-level ROS-dependent modeling results in a 2.2% absolute reduction in word error rate over a rate-independent baseline system. Relative to an enhanced baseline system that models cross-word phonetic elision and reduction in a multiword dictionary, rate-dependent models achieve an absolute improvement of 1.5%. Furthermore, we introduce a novel method to modeling reduced pronunciations that are common in fast speech based on the approach of skipping short phones in the pronunciation models while preserving the phonetic context for the adjacent phones. This method is shown to also produce a small additional improvement on top of ROS-dependent acoustic modeling.

Zusammenfassung

Schwankungen in der Sprechgeschwindigkeit (“rate-of-speech”, ROS) beeinflussen sowohl die spekralen Eigenschaften als auch die Aussprache von Wörtern und betreffen somit die automatische Spracherkennung. Um diesen Effekten Rechnung zu tragen, verwenden wir mehrere parallele, ROS-spezifische akustische und Ausprachemodellen im Erkenner. Dabei sind ROS-Wechsel an Wortgrenzen erlaubt, so dass Anpassungen an ROS-Änderungen innerhalb eines Satzes möglich sind. Aufgrund der parallelen Struktur der ROS-spezifischen Modelle und der Verwendung der Maximum-Likelihood-Methode ist eine Bestimmung der ROS vor der Spracherkennung nicht notwendig, was typischerweise ein schwieriges Problem darstellt. Wir testen unsere Modelle in der Erkennung von Telefongesprä chen. Experimente mit dem NIST 2000 Hub-5-Korpus ergaben eine absolute Verringerung der Wortfehlerrate von 2.2% bei Benutzung von ROS-abhängigen akustischen Modellen verglichen mit einem ROS-unabhängigen Baseline-System. Gegenüber einem verbesserten Baseline-System, in dem phonetische Elidierungen und Reduktionen an Wortgrenzen mittels Multiwörtern erfasst sind, ergibt ein ROS-abhängiges System eine absolute Verbesserung von 1.5%. Ausserdem stellen wir eine neue Methode zur Modelliering von reduzierten Aussprachevarianten, die oft bei schnellem Sprechen auftreten, vor. Dieses Verfahren erlaubt das Überspringen von kurzen Segmenten im Aussprachemodel, wobei jedoch der phonetische Kontext von Nachbarsegmenten erhalten wird. Diese Methode ergibt eine geringfügige zusätzliche Verbesserung der ROS-abhängigen akustischen Modelle.

Résumé

Les variations de vitesse d’élocution (ROS) affectent les indices spectraux du signal vocal et la prononciation; les systèmes de reconnaissance automatique de la parole y sont donc exposés. Afin de combattre ces effets, nous proposons d’utiliser en parallè le deux groupes de modèles acoustiques et de prononciation, adaptés en fonction de la vitesse d’élocution. Le choix entre ces deux groupes peut basculer à la frontière des mots afin de rendre compte en cours d’énoncé des variations de cette vitesse, courantes en parole conversationnelle. Grâce au parallélisme des deux groupes de modèles et à la méthode de décodage basée sur le maximum de vraisemblance, notre approche ne demande pas l’estimation de la vitesse d’élocution avant décision de reconnaissance, ce qui serait difficile à réaliser. Nous évaluons nos modèles sur une tâche de reconnaissance automatique de la parole téléphonique grand vocabulaire. Les expériences sur une configuration de développement NIST 2000 Hub-5s montrent que notre modélisation obtient 2,2% d’amélioration du taux de reconnaissance de mots comparé à un système de base ne comportant pas de traitement de la dépendance à la vitesse d’élocution. Par rapport à un système de base amélioré où la coarticulation et les élisions sont modélisées dans un dictionnaire de multi-mots, notre modélisation dépendante de la vitesse d’élocution obtient 1,5% d’amélioration.

Nous avons de plus introduit une nouvelle modélisation des réductions phonétiques, fréquentes dans la parole à débit rapide, où les phones courts peuvent être omis en tant que segment mais préservés en tant que contexte phonétique pour les phones adjacents. Cette approche a également permis une légère amélioration s’ajoutant à celle qu’obtient la prise en compte des variations de vitesse d’élocution.

Author Keywords: Rate-of-speech modeling; Large vocabulary conversational speech recognition; Pronunciation modeling

Article Outline

1. Introduction
2. Rate-of-speech measure
3. Rate-dependent acoustic modeling
3.1. Training rate-dependent acoustic models
3.2. Bayesian adaptation versus standard training
3.3. Relation to explicit duration modeling
4. Rate-dependent pronunciation modeling with zero-length phones
5. ROS modeling for multiwords
6. Conclusions
Acknowledgements
References




Speech Communication
Volume 41, Issues 2-3, October 2003, Pages 273-285
 
Home
Browse
My Settings
Alerts
Help
Elsevier.com (Opens new window)
About ScienceDirect  |  Contact Us  |  Information for Advertisers  |  Terms & Conditions  |  Privacy Policy
Copyright © 2008 Elsevier B.V. All rights reserved. ScienceDirect® is a registered trademark of Elsevier B.V.