Copyright © 2000 Elsevier Science B.V. All rights reserved.
Prosody-based automatic segmentation of speech into sentences and topics
Available online 14 August 2000.
References and further reading may be available for this article. To view references and further reading you must purchase this article.
Abstract
A crucial step in processing speech audio data for information extraction, topic detection, or browsing/playback is to segment the input into sentence and topic units. Speech segmentation is challenging, since the cues typically present for segmenting text (headers, paragraphs, punctuation) are absent in spoken language. We investigate the use of prosody (information gleaned from the timing and melody of speech) for these tasks. Using decision tree and hidden Markov modeling techniques, we combine prosodic cues with word-based approaches, and evaluate performance on two speech corpora, Broadcast News and Switchboard. Results show that the prosodic model alone performs on par with, or better than, word-based statistical language models – for both true and automatically recognized words in news speech. The prosodic model achieves comparable performance with significantly less training data, and requires no hand-labeling of prosodic events. Across tasks and corpora, we obtain a significant improvement over word-only models using a probabilistic combination of prosodic and lexical information. Inspection reveals that the prosodic models capture language-independent boundary indicators described in the literature. Finally, cue usage is task and corpus dependent. For example, pause and pitch features are highly informative for segmenting news speech, whereas pause, duration and word-based cues dominate for natural conversation.
Zusammenfassung
Ein wesentlicher Schritt in der Sprachverarbeitung zum Zweck der Informationsextrahierung, Themenklassifizierung oder Wiedergabe ist die Segmentierung in thematische und Satzeinheiten. Sprachsegmentierung ist schwierig, da die Hinweise, die dafür gewöhnlich in Texten vorzufinden sind (Überschriften, Absätze, Interpunktion), in gesprochener Sprache fehlen. Wir untersuchen die Benutzung von Prosodie (Timing und Melodie der Sprache) zu diesem Zweck. Mithilfe von Entscheidungsbäumen und Hidden-Markov-Modellen kombinieren wir prosodische und wortbasierte Informationen, und prüfen unsere Verfahren anhand von zwei Sprachkorpora, Broadcast News und Switchboard. Sowohl bei korrekten, als auch bei automatisch erkannten Worttranskriptionen von Broadcast News zeigen unsere Ergebnisse, daß Prosodiemodelle alleine eine gleichgute oder bessere Leistung als die wortbasieren statistischen Sprachmodelle erbringen. Dabei erzielt das Prosodiemodell eine vergleichbare Leistung mit wesentlich weniger Trainingsdaten und bedarf keines manuellen Transkribierens prosodischer Eigenschaften. Für beide Segmentierungsarten und Korpora erzielen wir eine signifikante Verbesserung gegenüber rein wortbasierten Modellen, indem wir prosodische und lexikalische Informationsquellen probabilistisch kombinieren. Eine Untersuchung der Prosodiemodelle zeigt, daß diese auf sprachunabhängige, in der Literatur beschriebene Segmentierungsmerkmale ansprechen. Die Auswahl der Merkmale hängt wesentlich von Segmentierungstyp und Korpus ab. Zum Beispiel sind Pausen und F0-Merkmale vor allem für Nachrichtensprache informativ, während zeitdauer- und wortbasierte Merkmale in natürlichen Gesprächen dominieren.
Résumé
Une étape cruciale dans le traitement de la parole pour l'extraction d'information, la détection du sujet de conversation et la navigation est la segmentation du discours. Celle-ci est difficile car les indices aidant à segmenter un texte (en-têtes, paragraphes, ponctuation) n'apparaissent pas dans le language parlé. Nous étudions l'usage de la prosodie (l'information extraite du rythme et de la mélodie de la parole) à cet effet. A l'aide d'arbres de décision et de chaînes de Markov cachées, nous combinons les indices prosodiques avec le modèle du langage. Nous evaluons notre algorithme sur deux corpora, Broadcast News et Switchboard. Nos résultats indiquent que le modèle prosodique est équivalent ou supérieur au modèle du langage, et qu'il requiert moins de données d'entraînement. Il ne nécessite pas d'annotations manuelles de la prosodie. De plus, nous obtenons un gain significatif en combinant de manière probabiliste l'information prosodique et lexicale, et ce pour différents corpora et applications. Une inspection plus détaillée des résultats révèle que les modèles prosodiques identifient les indicateurs de début et de fin de segments, tel que décrit dans la littérature. Finalement, l'usage des indices prosodiques dépend de l'application et du corpus. Par exemple, le ton s'avère extrèmement utile pour la segmentation des bulletins télévisés, alors que les caracteristiques de durée et celles extraites du modèle du langage servent davantage pour la segmentation de conversations naturelles.
Author Keywords: Sentence segmentation; Topic segmentation; Prosody; Information extraction; Automatic speech recognition; Broadcast news; Switchboard
Article Outline
- 1. Introduction
- 2. Method
- 2.1. Prosodic modeling
- 2.1.1. Feature extraction regions
- 2.1.2. Features
- 2.1.2.1. Pause features
- 2.1.2.2. Phone and rhyme duration features
- 2.1.2.3. F0 features
- 2.1.2.4. Estimated voice quality features
- 2.1.2.5. Other features
- 2.1.3. Decision trees
- 2.1.4. Feature selection algorithm
- 2.2. Language modeling
- 2.3. Model combination
- 2.3.1. Posterior probability interpolation
- 2.3.2. Integrated hidden Markov modeling
- 2.3.3. HMM posteriors as decision tree features
- 2.3.4. Alternative models
- 2.4. Data
- 3. Results and discussion
- 3.1. Task 1. Sentence segmentation of Broadcast News data
- 3.1.1. Prosodic feature usage
- 3.1.2. Error reduction from prosody
- 3.1.3. Performance without F0 features
- 3.2. Task 2. Sentence segmentation of Switchboard data
- 3.3. Task 3. Topic segmentation of Broadcast News data
- 3.3.1. Prosodic feature usage
- 3.3.2. Error reduction from prosody
- 3.3.3. Performance without F0 features
- 3.4. Comparisons of error reduction across conditions
- 3.5. General discussion and future work
- 4. Summary and conclusion
- Acknowledgements
- References







E-mail Article
Add to my Quick Links

Cited By in Scopus (76)






