ScienceDirect® Home Skip Main Navigation Links
You have guest access to ScienceDirect. Find out more.
 
Home
Browse
My Settings
Alerts
Help
 Quick Search
 Search tips (Opens new window)
    Clear all fields    
Speech Communication
Volume 33, Issue 4, March 2001, Pages 357-371
 
Font Size: Decrease Font Size  Increase Font Size
 Abstract - selected
Article
Purchase PDF (611 K)

 
 
 
Related Articles in ScienceDirect
View More Related Articles
 
View Record in Scopus
 
doi:10.1016/S0167-6393(00)00065-0    How to Cite or Link Using DOI (Opens New Window)
Copyright © 2001 Elsevier Science B.V. All rights reserved.

Generating prosodic attitudes in French: Data, model and evaluation

Yann MorlecCorresponding Author Contact Information, E-mail The Corresponding Author, Gérard Bailly and Véronique Aubergé

Institut de la Communication Parlée, UPRESA CNRS, no 5009/Université Stendhal/INPG-ENSERG, 46, avenue Félix Viallet, 38700 Grenoble Cedex, 01, France

Available online 2 February 2001.

Purchase the full-text article



References and further reading may be available for this article. To view references and further reading you must purchase this article.

Abstract

A corpus of 322 syntactically balanced sentences uttered by one speaker with six different prosodic attitudes is analysed. The syntactic and phonotactic structure of the sentences are systematically varied in order to understand how two functions can be carried out in parallel in the prosodic continuum: (1) enunciative: demarcation of constituents; (2) illocutory: speaker’s attitude. The statistical analysis of the corpus demonstrates that global prototypical prosodic contours characterise each attitude. Such a global encoding is consistent with gating experiments showing that attitudes can be discriminated very early in utterances. These results are discussed in relation to a morphological and superpositional model of intonation. This model proposes that the information specific to each linguistic level (structure, hierarchy of constituents, semantic and pragmatic attributes) is encoded via superposed multiparametric contours. An implementation of this model is described that automatically captures and generates these prototypical prosodic contours. This implementation consists of parallel Recurrent Neural Networks each responsible for the encoding of one linguistic level. The identification rates of attitudes for both training and test synthetic utterances are similar to those for natural stimuli. We conclude that the study of discourse-level linguistic attributes such as prosodic attitudes is a valuable paradigm for comparing intonation models.

Zusammenfassung

Ein Korpus von 322 syntaktisch ausgewogenen, von einem Sprecher geäusserten Sätzen, die sechs verschiedene prosodische Attitüden beinhalten, wurde analysiert. Die syntaktische und phonotaktische Struktur dieser Sätze wurde systematisch variiert, um herauszufinden auf welche Weise zwei Funktionen in einem prosodischen Kontinuum parallel ausgeführt werden können: (1) enuntiativ: die Abgrenzung von Konstituenten; (2) illokutiv: die Einstellung des Sprechers. Die statistische Analyse des Korpus zeigt, dass globale, prototypische prosodische Konturen die jeweilige Einstellung des Sprechers charakterisieren. Eine solche globale Kodierung stimmt überein mit Gating-Experimenten, die zeigen, dass die Sprechereinstellung in Äusserungen bereits sehr früh unterschieden werden kann. Diese Resultate werden im Verhältnis zu einem morphologischen und superpositionalen Intonationsmodell diskutiert. Dieses Modell schlägt vor, dass die Information, die für jedes linguistische Niveau spezifisch ist (Struktur, Konstituentenhierarchie, semantische und pragmatische Attribute), mit überlagerten multiparametrischen Konturen kodiert wird. Eine Implementierung dieses Modells wird beschrieben, welches diese prototypischen prosodischen Konturen automatisch beinhaltet und generiert. Die Implementierung enthält parallele Recurrent Neural Networks, ein jedes verantwortlich für die Kodierung eines linguistischen Niveaus. Die Identifikationsrate für die Sprechereinstellung für Trainings- und Testäusserungen ist ähnlich der von natürlichen Stimuli. Wir schliessen daraus, dass die Untersuchung von linguistischen Attributen auf Diskursebene, wie zum Beispiel prosodisch deutlichgemachte Sprechereinstellung, ein wertvolles Paradigma ist, um Intonationsmodelle zu vergleichen.

Résumé

Un corpus de 322 phrases syntaxiquement équilibrées est analysé. Il est prononcé par un locuteur selon six attitudes intonatives. Les structures syntaxique et phonotactique des phrases sont variées systématiquement pour comprendre comment deux fonctions peuvent être véhiculées en paralléle dans le continuum prosodique: (1) énonciative: démarcation des constituants; (2) illocutoire: attitude du locuteur. L'analyse statistique du corpus démontre que des contours prosodiques globaux caractérisent chaque attitude. Cet encodage global s'accorde avec des expériences de dévoilement progressif montrant que les attitudes peuvent être identifiées très tôt dans l'énoncé. Ces résultats sont commentés dans la perspective d'un modèle morphologique et superpositional de l'intonation. Ce modèle, propose que l'information spécifique à chaque niveau linguistique (structure, hiérarchie des constituants, attributs sémantiques et pragmatiques) est encodée sous forme de contours multiparamétriques. Nous décrivons une implémentation de ce modèle qui capture puis génère automatiquement ces contours prosodiques prototypiques. Il s'agit d'un ensemble de réseaux de neurones récurrents, chacun d'eux encodant un niveau linguistique particulier. Les scores d'identification des attitudes pour des phrases synthétiques d'apprentissage ou de test sont similaires aux scores obtenus pour des stimuli naturels. Nous concluons que l'étude d'attributs linguistiques au niveau discursif, comme ici les attitudes prosodiques, est un paradigme intéressant pour comparer les modèles de l'intonation.

Author Keywords: Automatic training; Corpus design; F0 and macrorhythm generation; Gating experiment; Perceptual evaluation; Prosodic attitudes; Prosodic model; Prosodic movement expansion

Article Outline

1. Introduction
2. Theoretical model: a morphological approach
3. Data
3.1. A corpus-based approach
3.2. A corpus of attitudes
3.3. Prosodic parameters stylisation
3.3.1. Extraction of macrorhythm and phonemic durations
3.3.2. F0 contour stylisation
3.4. Corpus analysis
3.4.1. From prosodic contours to prosodic movements
3.4.1.1. Melodic analysis
3.4.1.2. Rhythmic analysis
3.4.2. Prosodic movement expansion
3.4.3. Discussion
4. Modelling
4.1. Overview of the complete model
4.2. The sentence module
4.2.1. Architecture
4.2.2. Training
4.2.3. Predictions on the training set
4.2.4. Movement expansion and extrapolation
4.3. Discussion
5. Evaluation
5.1. The gating experiment
5.1.1. Stimuli
5.1.2. Protocol
5.1.3. Results
5.2. Sentence module evaluation
5.2.1. Stimuli
5.2.2. Protocol
5.2.3. Results
6. Conclusions and future work
Acknowledgements
Appendix A
References









Speech Communication
Volume 33, Issue 4, March 2001, Pages 357-371
 
Home
Browse
My Settings
Alerts
Help
Elsevier.com (Opens new window)
About ScienceDirect  |  Contact Us  |  Information for Advertisers  |  Terms & Conditions  |  Privacy Policy
Copyright © 2008 Elsevier B.V. All rights reserved. ScienceDirect® is a registered trademark of Elsevier B.V.