Copyright © 1998 Elsevier Science B.V. All rights reserved.
Robust speech recognition using the modulation spectrogram
Received 1 September 1997;
References and further reading may be available for this article. To view references and further reading you must purchase this article.
Abstract
The performance of present-day automatic speech recognition (ASR) systems is seriously compromised by levels of acoustic interference (such as additive noise and room reverberation) representative of real-world speaking conditions. Studies on the perception of speech by human listeners suggest that recognizer robustness might be improved by focusing on temporal structure in the speech signal that appears as low-frequency (below 16 Hz) amplitude modulations in subband channels following critical-band frequency analysis. A speech representation that emphasizes this temporal structure, the “modulation spectrogram”, has been developed. Visual displays of speech produced with the modulation spectrogram are relatively stable in the presence of high levels of background noise and reverberation. Using the modulation spectrogram as a front end for ASR provides a significant improvement in performance on highly reverberant speech. When the modulation spectrogram is used in combination with log-RASTA-PLP (log RelAtive SpecTrAl Perceptual Linear Predictive analysis) performance over a range of noisy and reverberant conditions is significantly improved, suggesting that the use of multiple representations is another promising method for improving the robustness of ASR systems.
Zusammenfassung
Die Performanz heutiger Spracherkennungssysteme wird stark von akustischen Interferenzen (z.B. additivem Rauschen und Hall) beeinträchtigt, die typisch für reelle Sprechbedingungen sind. Untersuchungen zur menschlichen Sprachwahrnehmung zeigen, daß die Robustheit von Spracherkennern möglicherweise durch Konzentration auf die zeitliche Struktur des Sprachsignals verbessert werden könnte, die als tieffrequente (unter 16 Hz) Amplitudenmodulation in den Frequenzkanälen der kritischen Bandanalyse auftritt. Es wurde eine Sprachsignalrepräsentation, das sogenannte Modulationsspektrogramm (modulation spectrogram), entwickelt, die diese zeitliche Struktur betont. Visualisierungen von Modulationsspektrogrammen zeigen eine relativ große Stabilität auch bei hochgradig verrauschter Sprache und bei starkem Hall. Die Verwendung des Modulationsspektrogramms als Vorverarbeitungsmethode in einem automatischen Spracherkenner liefert eine signifikante Verbesserung bei der Erkennung verhallter Sprache. Eine Kombination des Modulationsspektrogramms mit log-RASTA-PLP (log RelAtive SpecTrAl Perceptual Linear Predictive analysis) erzielt eine signifikante Verbesserung der Performanz bei einer Reihe von verschiedenen Rausch- und Hallbedingungen. Dies deutet darauf hin, daß eine Kombination verschiedener Signalrepräsentationen eine vielversprechende Methode zur Verbesserung der Robustheit automatischer Spracherkennungssysteme ist.
Résumé
La performance des systèmes actuels de reconnaissance de la parole automatique est considérablement compromise par des niveaux d'interférence acoustique (telle que du bruit additif et de la réverbération) qui sont représentatifs de conditions réelles. Des études sur la perception de la parole par des êtres humains et une analyse des bandes fréquencielles critiques suggèrent que la robustesse des systèmes de reconnaissance pourrait être améliorée en se focalisant sur la structure temporelle du signal qui apparaît comme des modulations d'amplitude de basse fréquence (moins de 16 Hz) dans les sous-bandes. Une représentation de la parole soulignant cette structure temporelle, appelé “spectrogramme de modulation” (modulation spectrogram), a été développée. Des visualisations de la parole utilisant le spectrogramme de modulation sont relativement stables, malgré des niveaux élevés de bruit de fond et de réverbération. L'utilisation du spectrogramme de modulation apporte une amélioration de performance importante en présence de beaucoup de réverbération. La combinaison du spectrogramme de modulation avec le codage log-RASTA-PLP (log RelAtive SpecTrAl Perceptual Linear Predictive analysis) permet d'obtenir des améliorations significatives pour de nombreuses conditions de bruit et de réverbération. Ceci suggère que l'utilisation de plusieurs représentations est une méthode prometteuse pour améliorer la robustesse d'un système de reconnaissance de la parole automatique.
Author Keywords: Robust speech recognition; Reverberation
Article Outline
- 1. Introduction
- 2. Speech recognition by machines
- 3. Speech recognition by humans
- 4. Incorporating temporal information into automatic speech recognition
- 5. Visualizing speech with the modulation spectrogram
- 6. Automatic speech recognition with the modulation spectrogram
- 7. Optimizing the modulation spectrogram for automatic speech recognition
- 8. Conclusions







E-mail Article
Add to my Quick Links

Cited By in Scopus (28)




