Ce travail a été financé par la subvention 298173 du Natural Sciences and Engineering Research Council of Canada (nserc), accordée à C. Palmer, et par le projet Methusalem « Embodied music cognition and mediation technologies for cultural and creative applications » à M. Leman.
Introduction
La musique est connue pour être un médium puissant qui suscite des mouvements du corps chez l’auditeur, allant de mouvements tels que : battre du pied, secouer la tête, balancer les bras et les hanches, à des formes plus sophistiquées de danse libre ou stylisée. Les recherches ont montré que ces mouvements corporels reflètent souvent les mouvements de l’interprète à l’origine de la musique elle-même (Leman et al., 2009 ; Godøy et Leman, 2010), mais aussi certains aspects de la mélodie, l’harmonie, le rythme et le timbre (Maes et al., 2010 ; Naveda et Leman, 2010 ; Toiviainen et al., 2010 ; Burger et al., 2013 ; Leman et al., 2013), ou même l’état d’esprit de l’auditeur (Van Dyck et al., 2013). Ces études, ainsi que des études similaires, indiquent dans une large mesure que la cognition musicale des auditeurs (attention, intention, humeur, sentiments, etc.) peut être perçue à travers les mouvements du corps, sans avoir recours à des représentations symboliques telles que le langage ou la partition musicale. Toutefois, malgré l'intérêt porté au corps humain et aux mouvements corporels, ces études, ainsi que les études similaires, ne considèrent pas la cognition musicale comme étant fondamentalement incarnée. Les résultats n’excluent pas la possibilité que les mouvements répondant à la musique ne soient que de simples épiphénomènes périphériques résultant de processus cognitifs centraux. Ce n’est que récemment que des études ont commencé à apparaître, démontrant comment la cognition musicale peut être façonnée par le système moteur humain et les mouvements qu’il produit (Phillips‑Silver et Trainor, 2005, 2007 ; Repp et Knoblich, 2009 ; Sedlmeier et al., 2011 ; Iordanescu et al., 2013 ; Loehr, 2013 ; Manning et Schutz, 2013 ; Maes et Leman, 2013 ; Timm et al., 2013). Cet axe de recherche reflète un important changement de paradigme dans les sciences cognitives. La vision classique, inspirée par les développements de la science informatique et de l’intelligence artificielle dans les années 1950-1960, adopte une approche de « traitement des données » qui considère un flux d’information strictement unidirectionnel, allant de la perception (entrée) à la cognition (traitement centralisé des données) vers l’action (sortie) (Neisser, 1967 ; Laske, 1974 ; Fodor, 1975 ; Pylyshyn et Demopoulos, 1986 ; Massaro, 1990). Par conséquent, les informations sensorielles reçues du monde extérieur sont perçues, traduites en un code syntaxique de symboles signifiants et traitées selon un ensemble systématique de règles. Ensuite, les mouvements du corps et les autres types de comportements sont considérés comme de simples expressions de ces manipulations de symboles formels de haut niveau. Par conséquent, dans cette conception classique de la cognition, perception et action sont complètement séparées l’une de l’autre et apparaissent extérieures à la cognition centrale – ce que Hurley (2001) décrit comme le « modèle de cognition en sandwich ». Ce modèle classique est obsolète car les recherches montrent que perception et action sont étroitement imbriquées et peuvent exercer une influence l’une sur l’autre. Au sein de ce qui est devenu la théorie de la cognition incarnée, le corps humain – avec ses systèmes moteurs et perceptifs – et ses interactions avec le monde extérieur, sont devenus centraux dans la cognition humaine (Varela et al., 1991 ; Leman, 2007 ; Chemero, 2009 ; Krueger, 2009 ; Glenberg, 2010 ; Shapiro, 2010). Dans le cadre de la cognition incarnée, la théorie du codage commun (Prinz, 1990, 1997 ; Hommel et al., 2001) a été une théorie influente, postulant un couplage étroit entre perception et action. Bien que cette théorie ne soit pas facilement réfutable, elle fournit un cadre général pour développer des modèles explicatifs plus détaillés et vérifiables (cf. Hommel et al., 2001). Par essence, la théorie affirme que la planification ou l’exécution d’une action, ainsi que la simple perception des conséquences (multi)sensorielles de cette action, sont représentées de manière similaire (codées) dans le cerveau, mobilisant ainsi les aires sensorielles et motrices du cerveau. Un point important de cette théorie est que l’intégration des représentations motrices et sensorielles conduit à des modèles internes de relations entre le corps et l’environnement externe, qui peuvent contenir des composants de modélisations inverses et prédictives (Wolpert et al., 1995). Les modèles inverses représentent un flux d’information de la perception à l’action, dans le sens où ils permettent au système d’estimer, à partir des informations sensorielles entrantes, les commandes motrices correspondantes requises pour générer cet état sensoriel spécifique (cf. Rizzolatti et al., 2001 : hypothèses de correspondance directe). En revanche, les modèles prédictifs représentent un flux d’information de l’action à la perception, dans le sens où ils permettent de prédire le résultat sensoriel probable d’une action planifiée ou exécutée (Davidson et Wolpert, 2005 ; Bubic et al., 2010 ; Waszak et al., 2012). Actuellement, l’idée selon laquelle la combinaison des processus de modélisations inverses et prédictives oriente l’interaction des individus avec le monde extérieur, incluant le contrôle moteur et le traitement sensoriel, tend à faire consensus.
Dans cet article, nous posons la théorie du codage commun, et la théorie des modèles internes qui lui est proche, comme cadre théorique pour la compréhension des effets de l’action sur la perception de la musique. Nous émettons l’hypothèse qu’une attention portée aux processus de modélisation, à la fois inverse et prédictive, peut fournir une vision d’ensemble du fonctionnement du système moteur humain et de la manière dont ses actions influencent la perception de la musique. Dans le domaine de la cognition musicale incarnée, la modélisation inverse sert habituellement de référence pour expliquer les effets de l’action sur la perception de la musique. La musique encourage des mouvements corporels qui possèdent des qualités expressives, ou assimilables à des intentions, des sentiments intérieurs, etc. De nombreux éléments musicaux contribuant à l’expressivité (par exemple : les dynamiques, l’articulation, le toucher, le phrasé, le vibrato, le rubato, etc.) sont en relation directe avec les aspects physiques du mouvement et de l’espace. Les processus de modélisation inverse nous permettent de rendre (ou de décoder), dans les mouvements corporels correspondants, les schémas d’expression musicale perçus. Ce processus de mise en miroir corporelle est à l’origine de la propension des auditeurs à attribuer à la musique des intentions, des sentiments intérieurs, etc. (Godøy, 2003 ; Leman, 2007 ; Cox, 2011). Nous voulons étendre cette perspective incarnée « traditionnelle » du rôle du corps humain dans la cognition musicale en nous concentrant sur les processus de modélisation prédictive. De ce point de vue, l’enjeu n’est plus la manière dont le corps entre en résonance avec la musique, mais plutôt la manière dont les réponses sensorielles d’action planifiées ou exécutées peuvent être projetées sur la musique perçue. Récemment, il y a eu une démultiplication des études concernant le rôle des modèles prédictifs dans les effets de l’action sur la perception visuelle, auditive et somatosensorielle. Dans le domaine de la perception visuelle, plusieurs articles passent en revue les effets de l’action sur la perception visuelle (Schütz-Bosbach et Prinz, 2007 ; Shin et al., 2010 ; Witt, 2011 ; Halasz et Cunnington, 2012). Actuellement, une telle revue des études examinant les effets de l’action sur la perception auditive n’existe pas. Un objectif important du présent article est de fournir précisément une revue des études qui appuient les théories et principes proposés.
L’article est structuré comme suit. Dans la section 2 nous avançons que l’apprentissage par association sensori-motrice peut être considéré comme un mécanisme central sous-jacent au développement de modèles internes. De la même manière, nous affirmons que la capacité de prédire les conséquences auditives des actions d’un individu, qui est l’un des mécanismes fondamentaux des effets de l’action sur la perception, dépend d’associations sensori-motrices précédemment acquises. Plus loin dans cette section, nous définissons les concepts de contiguïté temporelle et de contingence probabiliste comme deux principes essentiels sous-tendant les processus d’apprentissage associatif. De plus, nous montrons que la pratique d’un instrument de musique est un cas particulier mais hautement significatif d’un apprentissage par association sensori-motrice. Dans la section 3, nous fournissons nombre de résultats d’études empiriques qui appuient le fait que le principe de résonance motrice, inhérent aux modèles inverses (section 3.1), ajouté aux prédictions auditives générées par les modèles prédictifs (section 3.2), peut moduler la perception auditive. De plus, nous démontrons que des déficiences dans le système moteur peuvent avoir comme conséquence une perception auditive détériorée (section 3.3). Pour conclure, nous présentons une discussion approfondie dans laquelle nous défendons une approche radicale de la cognition musicale incarnée basée sur des systèmes dynamiques. Par ailleurs, nous désignons la musique comme un objet d’étude privilégié pour étendre cette approche fondée sur des systèmes dynamiques à la cognition incarnée, puisqu’elle intègre l’expressivité, l’introspection (l’affect, la motivation, les intentions, la métacognition, etc.), et les interactions sociales comme étant des éléments cruciaux.
Apprentissage Associatif
Nous venons d’exposer le codage commun de l’action et de la perception en tant que mécanisme central sous-jacent de l’engagement des individus dans la musique (contrôle moteur et processus sensoriel). Cependant, cette description ne traite pas de la façon dont l’action et la perception s’intègrent mutuellement. Nous préconisons que cette intégration est établie, en grande partie, à travers le processus d’apprentissage associatif. L’étude de ces processus peut être retracée jusqu’à la philosophie d’Aristote suggérant que les phénomènes qui se produisent de manière rapprochée sur le plan spatial ou temporel sont facilement associés (c’est-à-dire la loi de contiguïté). Au cours du siècle des Lumières, ces idées furent largement développées par l’école associationniste (par exemple : David Hume, John Locke, John Stuart Mill, etc.). Au xixe siècle, William James a exposé, en tant que loi élémentaire de l’association, que « lorsque deux processus mentaux élémentaires ont été actifs ensemble ou de manière successive et immédiate, l’un des deux, en se reproduisant, tend à propager son activité vers l’autre1 » (James, 1890, p. 566). À la fin des années 1940, ce principe a été paraphrasé par la loi de Hebb : « des neurones qui s’activent ensemble sont des neurones qui se lient entre eux2 ». La théorie de l’apprentissage associatif3, présentée par Heyes et Ray (2000), est une proposition plus récente. Cette dernière suggère que l’imitation est modulée par des processus associatifs qui établissent des liens entre les représentations sensorielles et motrices. Cette théorie a été appliquée au système des neurones miroirs humains afin de tenter de reconsidérer son origine et sa fonction. Le point de vue classique sur les neurones miroirs – à l’origine des travaux de Gallese et al. (1996) ; Rizzolatti et al. (2001) ; Kohler et al. (2002) – postule qu’il s’agit d’un système inné, influencé seulement de manière marginale par l’expérience sensori-motrice, et qui code de manière inhérente le sens des actions (par exemple : les buts, les intentions, etc.). Cette perspective a été adoptée très tôt pour expliquer l’importance variable des fonctions psychologiques et sociales, ou encore la compréhension des actions, l’apprentissage par imitation, l’empathie, et les interactions sociales. Cependant, des critiques se sont élevées, en opposition à cette vision classique, en particulier contre l’idée que les neurones miroirs sont forgés par l’évolution humaine pour encoder directement et consciemment le but des actions (Hickok, 2009 ; Heyes, 2010 ; Catmur, 2012). La vision alternative – que Heyes (2010) a nommé hypothèse associative – énonce que le développement du système des neurones miroirs est favorisé par l’apprentissage associatif sensori-moteur. Des preuves empiriques sont apportées dans les domaines de la musique et de la danse. Haslinger et al. (2005) ont comparé, à l’aide de l’Imagerie par Résonance Magnétique fonctionnelle (irmf), des pianistes experts et un groupe contrôle musicalement peu initié lors de l’observation de mouvements de doigts en train de jouer, ou non, du piano. Les résultats ont mis en évidence que les pianistes experts montraient une plus grande activation des aires cérébrales associées avec le système des neurones miroirs (région fronto-pariéto-temporale inférieure) en comparaison avec le groupe contrôle. De la même manière, dans le domaine de la danse, Calvo‑Merino et al. (2005) ont montré que l’activation des aires cérébrales en relation avec le système des neurones miroirs chez les danseurs experts (ballet classique et capoeira) est plus élevée lorsqu’ils observent le style de danse qui leur est familier. En conclusion, l’hypothèse associative montre que, à travers des expériences systématiquement répétées, les événements sensoriels sont associés à des actes moteurs particuliers, et que des connexions neuronales s’établissent entre les deux, aboutissant au développement de « modèles internes ». Par conséquent, lorsqu’une représentation sensorielle est activée, la représentation motrice correspondante est automatiquement co-activée (modélisation inverse), et vice versa : lorsqu’une action est simplement planifiée ou exécutée, la représentation sensorielle est automatiquement co-activée (modélisation prédictive). Comme nous l’expliquerons plus tard dans la section 3, les modélisations inverses et prédictives peuvent contribuer aux effets de l’action sur la perception auditive.
Un important défi pour les futures recherches est de préciser davantage les substrats neuraux à la base du processus d’apprentissage associatif. Les études identifient le cervelet (Imamizu et Kawato, 2009 ; Timmann et al., 2010), le striatum – l’entrée du noyau cellulaire dans les ganglions de la base du cerveau – (Pasupathy et Miller, 2005 ; Williams et Eskandar, 2006 ; Lalazar et Vaadia, 2008 ; Melcher et al, 2012), les aires pré-frontales (Deiber et al., 1997 ; Bangert et Altenmüller, 2003 ; Pasupathy et Miller, 2005), l’aire motrice supplémentaire (Pasupathy et Miller, 2005), et le cortex pré-moteur (Deiber et al., 1997 ; Schubotz, 2007 ; Chen et al., 2009 ; Imamizu et Kawato, 2009) comme des structures neurales importantes, à la base de l’apprentissage associatif, menant au développement de modèles internes et de mécanismes prédictifs. Dans le champ de la recherche musicale, des résultats suggèrent que le striatum est impliqué dans la prédiction et l’anticipation. Grahn et Rowe (2013) estiment que la fonction du putamen – l’un des deux noyaux qui composent le striatum – est l’anticipation de la pulsation. Leurs résultats montrent que le putamen s’active uniquement après avoir défini une pulsation prévisible. Par conséquent, ils concluent que l’activité du putamen reflète le processus de génération interne de modèle à partir d’un stimulus rythmique. Dans une étude de Leaver et al. (2009), il a été démontré que l’imagerie anticipatrice/prédictive de mélodies musicales est associée à l’activation de diverses structures corticales (frontale et pariétale) et subcorticales (ganglions de la base et cervelet). De manière intéressante, différents substrats neuraux sous-tendent différentes étapes du développement d’un apprentissage d’associations conditionnelles entre des mélodies (« modérément appris » contre « bien appris »). Certains résultats montrent que l’aire motrice supplémentaire et le ganglion de la base (putamen) sont particulièrement importants dans les premières étapes d’apprentissage, alors que le cortex frontal semble dominer dans les étapes finales (cf. Pasupathy et Miller, 2005). Ces dynamiques dans l’activation des neurones impliqués dans l’apprentissage d’associations sensori-motrices caractérisent l’apprentissage de compétences motrices en général. Des études démontrent que le recrutement d’aires cérébrales distribuées dans le processus d’acquisition de compétences motrices dépend du type de tâche motrice (apprentissage moteur séquentiel contre adaptation motrice) et de l’étape d’apprentissage (apprentissage rapide, apprentissage lent, consolidation, automatisation, rétention) (Ungerleider et al., 2002 ; Luft and Buitrago, 2005 ; Doyon et al., 2009).
Continuité et contingence
L’apprentissage par association auditori-motrice – c’est-à-dire l’acquisition de connaissances grâce à la relation entre le son et le mouvement – est modulé à la fois par la « contiguïté » temporelle et la « contingence » probabiliste (Cooper et al., 2012). La « contiguïté » fait référence à la proximité de deux événements (tels que le mouvement et le son par exemple) dans le temps et dans l’espace. Les origines du concept se trouvent dans la loi de contiguïté d’Aristote, suggérant que les phénomènes qui se produisent de manière rapprochée sur le plan spatial ou temporel sont facilement associés. Cependant, il n’y a pas nécessairement d’apprentissage par association à chaque fois que deux événements sont liés dans le temps et dans l’espace. Au-delà de cela, il est nécessaire que la relation entre les phénomènes soit prévisible. La « contingence » se réfère à ce degré de probabilité ou de vraisemblance que deux événements, ou davantage, s’associent entre eux. En termes statistiques, la contingence est liée à la covariance, cette dernière étant une mesure des changements conjoints entre deux variables aléatoires.
Elsner et Hommel (2004) présentent deux expérimentations dans lesquelles le rôle de la contiguïté et de la contingence a été étudié dans le développement des associations sensori-motrices. Chaque expérience consistait en une phase d’apprentissage suivie d’une phase de test. Dans la phase d’apprentissage, les participants ont appris à associer les actions et les effets en appuyant de manière répétée sur des touches (action), déclenchant les notes correspondantes (effet). Lors de la phase de test subséquente, les notes étaient jouées et il était demandé aux participants de donner des réponses rapides à ces stimuli en appuyant sur les touches soit de manière cohérente (c’est-à-dire selon le même chemin d’action à effet que lors de la phase d’apprentissage) soit de manière incohérente (c’est‑à‑dire selon un autre chemin d’action à effet que lors de la phase d’apprentissage). Si une association action-effet était établie dans la phase d’apprentissage, il était attendu par la suite que les participants répondent plus rapidement de manière cohérente qu’incohérente par rapport à l’acquisition. Dans la phase d’apprentissage de l’Expérience 1, la contiguïté entre action et effet a été systématiquement manipulée en ajoutant un délai croissant entre les deux (50, 1000 et 2000 ms). Durant la phase de test, les participants ont répondu plus rapidement dans un contexte cohérent que dans un contexte incohérent par rapport à l’acquisition lorsque le délai dans l’apprentissage associatif d’action-effet était de 50 ou 1000 ms. Par conséquent, l’apprentissage associatif ne semblait fonctionner que lorsque des délais action-effet de minimum 1000 ms étaient utilisés, indiquant ainsi un effet de contiguïté dans l’apprentissage associatif. Dans la phase d’apprentissage de l’Expérience 2, la contingence entre action et effet a été systématiquement manipulée par la variation des fréquences relatives à la présence, ou à l’absence, de notes avec les touches correspondantes. Là encore, il a été démontré que la cohérence par rapport à l’acquisition dans la phase de test était affectée par la contingence de l’action et de l’effet dans la phase d’apprentissage. Réunis, ces résultats montrent que la contiguïté et la contingence entre les actions (ici, les pressions sur les touches) et les événements auditifs (ici, des sons sinusoïdaux et des sonorités de flûte/marimba de type Musical Instrument Digital Interface4) sont importantes dans le processus d’acquisition des associations sensori‑motrices.
Un paradigme expérimental intéressant, dans lequel la contiguïté et la contingence pourraient être davantage étudiées, est le paradigme d’apprentissage sensori-moteur contre-miroir (Cook et al., 2010). Dans ce paradigme, les associations précédemment établies entre phénomènes moteurs et sensoriels sont manipulées en couplant à plusieurs reprises l’observation d’une action avec l’exécution d’une autre action. On trouve généralement (en mesurant les réponses neurales ou les temps de réaction par exemple) que l’association sensori-motrice originale s’affaiblit, en fonction des principes de contingence et de contiguïté. Ce paradigme a été appliqué aux processus d’apprentissage visuo-moteur, mais pas encore aux processus d’apprentissage auditori-moteur. Cependant, ce paradigme offre des possibilités uniques d’étudier, par exemple, la manière dont l’apprentissage contre-miroir peut altérer les liens auditori-moteurs établis par la pratique d’un instrument de musique.
Apprentissage d’instruments de musique
Apprendre à jouer d’un instrument peut être considéré comme un cas particulier et très significatif d’un apprentissage par association sensori‑motrice dans lequel l’action et la perception deviennent très fortement liées. L’acte de jouer d’un instrument peut être considéré comme un acte intentionnel et dirigé vers un but (Dalla Bella et Palmer, 2011). En fin de compte, le but de jouer d’un instrument de musique est de produire un certain son. Cependant, afin d’atteindre ce but, il faut d’abord connaître la relation entre les actions offertes par l’instrument, et les conséquences auditives de ces actions. Cette connaissance est acquise progressivement en explorant et en manipulant les possibilités offertes par l’instrument en utilisant des actions (en premier lieu) arbitraires qui mènent à des événements auditifs (en premier lieu) inattendus (Hommel, 2003). Lors de ce processus d’exploration et d’interaction, les actions exécutées sont systématiquement et continuellement associées aux sons entendus, et des modèles internes sont par conséquent développés, captant la relation entre l’action et le son. Par exemple, dans le cas du piano, le musicien commence à comprendre que la correspondance touches-hauteurs est organisée de manière fonctionnelle (les mouvements de gauche à droite correspondent à des hauteurs de plus en plus aigües), ou qu’appuyer sur la pédale forte crée un effet de legato. À partir de ce moment, jouer d’un instrument peut devenir un acte orienté vers un but, dans le sens où les musiciens ont la capacité de produire intentionnellement certains sons en exécutant certaines actions. De plus, il faut noter que le processus d’exploration par lequel l’action et la perception interagissent mutuellement, est un processus continu qui a lieu tout au long de la vie d’un musicien. Il intègre des aspects de créativité, d’intuition et de surprise, et peut en lui-même être la « raison d’être5 » pour laquelle le musicien joue de son instrument (cf. Sudnow, 1978).
Une grande partie des études empiriques qui existent soutiennent ces idées. Par exemple, il a été démontré que lorsque les personnes sont habituées à jouer d’un instrument de musique, les connexions auditori-motrices sont développées à la suite de cet entraînement (Pascal-Leone, 2001 ; Bangert et Altenmüller, 2003 ; Lotze et al., 2003 ; Lahav et al., 2005 ; D’Ausilio et al., 2006 ; Lahav et al., 2007 ; Hyde et al., 2009 ; Herholz et Zatorre, 2012). Il a également été prouvé que lors d’une simple écoute de la musique, les musiciens aguerris présentent davantage d’associations auditori-motrices que les non-musiciens (Haueisen et Knösche, 2001 ; Gaser et Schlaug, 2003 ; Baumann et al., 2007). Cela soutient l’idée selon laquelle les connexions auditori-motrices sont activées grâce à un entraînement intensif qui inclut l’acquisition de compétences sur le long terme et la réactivation régulière de ces mêmes compétences (Brown et Palmer, 2012, 2013).
Il est évident que les processus d’association sensori-motrice sont importants dans le contrôle d’actions volontaires, comme dans le cas de l’exécution instrumentale (Hommel, 1997, 2003 ; Elsner et Hommel, 2001). Quoi qu’il en soit, le plus important, au regard du présent article, est l’idée selon laquelle les connections sensori-motrices et l’intégration de ces connections dans des modèles internes, peuvent influencer les processus perceptifs et, par conséquent, forger la cognition musicale. Dans les paragraphes suivants, nous discuterons des résultats empiriques démontrant que l’apprentissage par association sensori-motrice, dans le cas particulier de l'apprentissage instrumental, peut produire des effets sur la perception auditive.
Résultats empiriques : une revue
Les Modèles inverses : de la perception à l’action
Les modèles inverses nous permettent d’anticiper les commandes motrices requises pour atteindre l’état sensoriel recherché. Il est évident que cela est de la plus haute importance lorsque l’on joue d'un instrument de musique. Cependant, les modèles inverses jouent également un rôle important dans la perception de la musique dans la mesure où ils permettent de prédire et de simuler les gestes impliqués dans la musique. Nombre de résultats prouvent que l'écoute de sons ou de musique déclenche systématiquement des réponses motrices, en fonction des associations précédemment établies (la résonance motrice [Schütz-Bosbach et Prinz, 2007], la perception de l'action [Hurley, 2008], etc.). Cela a été démontré dans des études neurophysiologiques (Haueisen et Knösche, 2001 ; Bangert et Altenmüller, 2003 ; Gaser et Schlaug, 2003 ; Lahav et al., 2005 et 2007 ; D'Ausilio et al., 2006 ; Baumann et al., 2007 ; Chen et al., 2008). De plus, les résultats d'études comportementales montrent que les réponses motrices aux sons sont généralement plus rapides lorsque les sons et les actions spécifiques ont été répétés et régulièrement associés à d'autres occasions (Elsner et Hommel, 2001 ; Rusconi et al., 2006 ; Lidji et al, 2007 ; Trimarchi et Luzzatti, 2011 ; Stewart et al., 2013a, b). Ces résultats soutiennent l'idée qu'une action est automatiquement activée (ou amorcée) à la suite de la simple perception des conséquences auditives normalement associées à cette action6. D'autres études ont mis l'accent sur les mouvements que les individus effectuent en réponse à la musique, présentée sous la forme d’une image motrice visuelle, ou via une imagerie motrice kinesthésique (Eitan et Granot, 2006, Leman et al., 2009 ; Kozak et al., 2012, Bernardi et al., 2013, Küssner, 2013 et Lotze, 2013). Ces études montrent que les individus peuvent traduire de manière cohérente les propriétés acoustiques du son et de la musique par les mouvements du corps, bien que Küssner (2013) rapporte que les musiciens sont plus cohérents (c'est-à-dire moins variables) dans la visualisation du son et de la musique au moyen de dessins. Le plus important, dans le cadre du présent article, est l'idée que la capacité de la musique à induire des mouvements chez les auditeurs implique que le simple fait d’écouter de la musique devient une expérience kinesthésique. Le groove est un exemple pertinent de stimulus musical qui induit des mouvements corporels chez les auditeurs (Janata et al., 2012 ; Stupacher et al., 2013). La notion de mouvement induit par la musique peut être liée à deux idées montrant comment les modèles inverses et le concept connexe de la résonance motrice (ou simulation motrice) peuvent façonner l'engagement des individus avec la musique et, par extension, la « cognition musicale ».
Premièrement, l’implication du corps dans le processus d'écoute musicale provoque une connexion entre la musique et les qualités expressives inhérentes aux mouvements que la musique induit. Le corps humain agit ainsi comme un médiateur entre les phénomènes physiques (processus sensoriels et moteurs) et les états mentaux subjectifs (Leman, 2007). Un modèle intéressant pour capter les qualités subtiles de l'expressivité du mouvement est le modèle Effort/Forme qui est issu de l’Analyse du Mouvement selon Laban (lma)7 (Laban, 1947 ; Laban et Ullmann, 1966). Ce modèle est particulièrement approprié car il fournit un système conceptuel intégré reliant un ensemble de propriétés physiques du mouvement avec des qualités expressives (par exemple poids, débit, espace, temps, etc.). Le modèle a été utilisé dans la recherche pour montrer comment les mouvements du corps induits par la musique sont en corrélation avec les descripteurs verbaux utilisés par les individus pour décrire leur perception de la musique (Maes et al., 2014).
Deuxièmement, il est intéressant de noter que les mouvements du corps induits par la musique peuvent susciter un sentiment de participation imaginée à la production du son. Cette idée de participation imaginée est abordée dans un large éventail d'études musicologiques avec des terminologies différentes, comme l'activité imaginée (Maus, 1988), l'empathie kinesthésique (Mead, 1999), l'agencement imaginaire (Levinson, 2006), le contrôle simulé (Leman, 2007), et la perception active (Krueger, 2009). Ce que ces textes ont en commun, c'est leur référence à un engagement sensori-moteur direct avec la musique, à la façon dont la musique « fait bouger » littéralement les individus et à la manière dont les auditeurs se sentent immergés et en résonance physique avec l’énergie sonore. En ce sens, la résonance motrice peut créer l'illusion de participer à la production virtuose proprement dite de la musique, ce qui serait impossible dans la vie réelle. Le mouvement musical, cependant, ne se limite pas aux mouvements purement physiques du corps humain. Schubotz (2007) propose une réponse à la question de savoir comment les gens peuvent simuler ou anticiper des événements qui ne pourraient pas être facilement reproduits par leur propre système moteur (par exemple, le rythme des vagues océaniques, le vol d'un moustique, ou une séquence de stimuli abstraits sur un écran d'ordinateur). Schubotz démontre et explique que même les événements abstraits – y compris les événements auditifs – font appel à notre système moteur (en particulier le cortex prémoteur et ses zones de projection pariétales) afin de soutenir les processus de simulation et de prédiction (voir aussi Southgate, 2013). En conséquence, les micro et macro-dynamiques, ainsi que les subtilités inhérentes aux textures et aux structures musicales, comme par exemple dans Clock and Clouds (1973) de György Ligeti ou dans des productions de musique électronique (par exemple Infected Mushroom, Aphex Twin, etc.), peuvent évoquer un continuum fascinant d'imagerie spatiale et de mouvement par lequel l'auditeur peut se laisser porter. En conséquence, la résonance motrice peut générer une expérience de flow8, qui est un état de focalisation et d'immersion accrues, typiquement accompagné de sentiments intenses de plaisir et de créativité (Csikszentmihalyi, 1988). Cet aspect de la résonance motrice est un élément essentiel des expériences esthétiques musicales et est fondamental pour forger la « cognition musicale ». De plus, il peut expliquer la capacité de la musique à modifier l'expérience de l'espace et du temps (Schäfer et al., 2013), et à contribuer au bien-être général des individus (Croom, 2011).
Les Modèles prédictifs : de l’action à la perception
Comme susmentionné, les modèles internes prédictifs représentent un flux d’informations de l’action à la perception, dans le sens où ils permettent de prédire le résultat sensoriel probable d’une action planifiée ou exécutée (cf. « résonance perceptuelle » [Schütz-Bosbach et Prinz, 2007], « perception active » [Hurley, 2008], etc.). Les recherches ont identifié le cervelet comme étant un locus crucial pour les modèles internes prédictifs (Wolpert et al., 1998 ; Blakemore et al., 2001 ; Knolle et al., 2012a ; Ebner, 2013), vraisemblablement en interaction avec d’autres structures cérébrales (les aires préfrontales par exemple [Lappe et al., 2013]). Dans ce contexte, il est important de noter qu’il existe différents mécanismes prédictifs qui sont soutenus par différents systèmes cérébraux. O’Reilly et al. (2013) différencient, par exemple, les modèles prédictifs statistiques et dynamiques. Les modèles statistiques captent la probabilité stochastique que deux ou plusieurs phénomènes soient associés – par exemple, un phénomène d’action et une récompense ou un phénomène sensoriel – et développés au-delà de l’historique des phénomènes discrets. Alternativement, dans les modèles dynamiques prédictifs, la relation entre deux phénomènes est déterministe et les prédictions sont estimées via des références explicites à des dynamiques environnementales pré-apprises.
Des études ont montré que les modèles prédictifs sont importants pour le contrôle moteur (Wolpert et al., 1995 ; Hommel, 1997), ainsi que pour le traitement des informations sensorielles provenant de l’environnement externe (Halász et Cunnington, 2012). Dans la présente étude, nous nous concentrons sur l’environnement externe dans le contexte de la perception auditive. Nous discuterons la manière dont les prédictions sensorielles générées par les modèles prédictifs peuvent influencer la perception du son et de la musique. Nous montrerons que les prédictions sensorielles peuvent également atténuer, faciliter, ou désambiguïser la perception auditive (cf. Halász et Cunnington, 2012).
L’atténuation
Le fait d’exécuter une action dont on peut prédire les conséquences sensorielles atténue la perception du résultat sensoriel réel, comme le reflètent les auto-évaluations et les réponses neuronales. Dans le domaine de la perception auditive, ce phénomène a d’abord été étudié pour la production verbale (Houde et al., 2002 ; Heinks-Maldonado et al., 2006). Au sein des études menées ultérieurement, le phénomène de suppression motrice9 a été étudié avec des notes générées par la pression d’une touche. En dépit du fait que les notes et les actions qui les produisent (c’est-à-dire qu’une action correspond à une hauteur) sont très simples, on peut faire un parallèle avec le fait de jouer d’un instrument, comme le piano, la trompette, etc.
Une étude dirigée par Aliu et al. (2009) démontre que la réponse auditive aux sons générés par la pression des touches est atténuée par rapport à la réponse qui suit l’écoute passive des mêmes sons. Cependant, étant donné que les sons générés intentionnellement et de manière externe étaient présentés par blocs séparés, il ne pouvait être exclu que l’effet d’atténuation observé soit modulé en fonction des différences dans les demandes de tâches contextuelles (par exemple le degré d’attention, d’activation physiologique, etc.). Pour clarifier cette question, Baess et al. (2011) ont rassemblé les sons générés intentionnellement et de manière externe dans des blocs communs. Les résultats de cette étude ont suggéré un effet d’atténuation encore plus important avec les sons générés intentionnellement qu’avec ceux observés dans les conditions par blocs séparés. De même, Timm et al. (2013) ont mené une étude afin d’explorer davantage la relation entre l’attention et les effets de la prédiction motrice dans les stimuli auditifs perçus. L’étude reprenait le paradigme mixte de Baess et al. (2011) en incorporant différentes conditions dans lesquelles l’attention était portée soit au son, soit à l’action motrice, soit aux stimuli visuels. Les résultats de cette étude ont démontré qu’un effet d’atténuation pour les sons générés intentionnellement était indépendant du phénomène sur lequel se porte l’attention. D’autres études ont examiné dans quelle mesure l’atténuation des effets de l’action sur la perception auditive se produit quand l’action était simplement observée au lieu d’être générée intentionnellement. Sato (2008) a émis l’hypothèse que, s’il existe un système de neurones miroirs humains qui code une association bidirectionnelle entre l'exécution de l’action et la perception de l’action, alors la simple observation des actions (apprises précédemment) conduisant à un certain phénomène auditif pourrait provoquer un effet d’atténuation auditive similaire à celui constaté lorsque l’action était générée de manière intentionnelle. Les résultats de cette étude ont confirmé cette hypothèse car une atténuation auditive similaire a été observée pour les actions produisant un son généré intentionnellement par les participants et lorsque la production du son était seulement observée. Toutefois, ce résultat a été réfuté par la suite par une étude de Weiss et Schütz-Bosbach (2012), qui ont fait appel à un protocole expérimental comparable à celui utilisé dans l’étude de Sato (2008). Les chercheurs ont comparé les effets de l’action sur la perception auditive pour les actions générées intentionnellement, les actions observées non-anticipées et les actions observées anticipées. Les résultats ont montré que l’atténuation d’un son est significativement plus importante lorsque l’action de production du son était intentionnelle, en comparaison à la production simplement observée. De plus, il a été démontré que cet effet s’est révélé indépendant du fait que l’action observée pouvait être anticipée ou non. Ce résultat soulève des questions sur le rôle que jouent les modèles internes prédictifs dans les mécanismes de prédiction qui sous-tendent les effets de l’action sur l’atténuation auditive (cf. Sato, 2008). Des recherches supplémentaires sont nécessaires afin de clarifier ce point. Dans une étude récente que nous citons ici, Knolle et al. (2012b) ont examiné dans quelle mesure l’atténuation auditive dépendait du degré de prédictivité d’un son produit intentionnellement. Le résultat de cette étude indique une diminution de l’effet d’atténuation lorsque les sons produits intentionnellement diffèrent du résultat attendu.
Ces études, ainsi que des études similaires (Baess et al., 2008 ; Hugues et al., 2013a, b ; Jones et al., 2013 ; Loehr, 2013 ; Sanmiguel et al., 2013), fournissent des preuves solides qui soutiennent l’existence d’un mécanisme de prédiction interne et basé sur la motricité, en mesure de moduler la perception auditive. La planification ou l’exécution d’une action entraîne la création d’une copie de la commande motrice devant être produite (c’est‑à‑dire une « copie efférente », ou « décharge corollaire »), qui permet une prédiction du résultat auditif de cette commande motrice. Une comparaison entre la prédiction et les données auditives proprement dites (« entrée de réafférence ») donne lieu à une légère erreur de prédiction, puis à une réponse minimale dans le cortex auditif révélant une perception atténuée (Aliu et al., 2009). Ce mécanisme permet de distinguer les entrées auditives qui sont la conséquence de nos propres actions de celles qui nous parviennent du monde extérieur. Il est important de noter que ce mécanisme requiert des modèles internes (assimilés) dans la relation entre les représentations sensorielles et motrices. Ce n’est que récemment que des études ont découvert les substrats neuraux de la prédiction sensorielle basée sur la motricité (Nelson et al. 2013 ; Roussel et al., 2013). Cependant, davantage de recherches seront nécessaires afin d’obtenir une vue d’ensemble des mécanismes neuraux à la base de l’effet de l’action sur l’atténuation auditive.
Facilitation
Manning et Schutz (2013) ont examiné dans quelle mesure « bouger en rythme » améliore objectivement la perception du temps. Ils ont exposé les participants à des séquences de seize sons isochrones divisés en groupes de quatre, suivis chacun d’un son témoin. Dans le dernier groupe, le second, le troisième et le quatrième « son » étaient muets (c’est-à-dire un segment muet, dans lequel les participants doivent conserver la pulsation). Le son témoin était joué « sur le temps » (c’est-à-dire déclenché suivant la même pulsation), légèrement en avance ou légèrement en retard. La tâche des participants était de juger si le son témoin final sonnait « sur le temps ». Dans l’une des situations, il était demandé aux participants de taper en rythme, alors qu’ils restaient immobiles dans l’autre situation. Les résultats montrent que les retards ont été mieux détectés lorsque les participants pouvaient bouger pendant les segments muets. De plus, il a été constaté que les « meilleurs » participants (c’est-à-dire démontrant le moins de variations rythmiques) ont globalement effectué de meilleures tâches de détection. En général, ces résultats confirment que le mouvement peut améliorer la perception du temps. Iordanescu et al. (2013) ont obtenu des résultats similaires en utilisant un paradigme standard de « bissection temporelle ». Les participants ont été exposés à des séries de trois clics brefs dans lesquelles la position du deuxième clic était aléatoire. Les participants devaient juger si le deuxième clic était plus proche du premier ou du troisième. Dans une configuration « active », les participants déclenchaient eux-mêmes le test en appuyant sur la barre espace, tandis que, dans une configuration « passive », les tests étaient déclenchés de façon externe. Encore une fois, dans le prolongement des résultats de Manning et Schutz (2013), les participants s’inscrivant dans une configuration active ont montré une plus grande sensibilité auditive aux intervalles temporels. D’ailleurs, il a été mis en évidence que cet effet n’était pas attribuable à la sensation tactile d’une touche. Il est intéressant de noter que ce résultat, selon lequel le mouvement du corps peut améliorer la perception du temps, a influencé des recherches dans le domaine du design des interactions homme-machine (ihm). Maes et al. (2012, 2013) présentent une application à la danse et à la direction musicale visant à améliorer la compréhension des utilisateurs des structures temporelles musicales, en leur enseignant comment exprimer ces structures par des mouvements du corps correspondants (en dansant ou en dirigeant).
Dans une autre étude, Brown et Palmer (2012) se sont intéressés à la manière dont l’apprentissage moteur et auditif contribuaient à la mémoire auditive pour la musique. Il a été demandé à des pianistes d’apprendre des mélodies sur un clavier de contrôle midi dans chacune des quatre conditions (auditif seul ; moteur seul ; auditif et moteur fortement associés, c’est-à-dire en jouant normalement ; auditif et moteur faiblement associés, c’est-à-dire en jouant en même temps que des enregistrements acoustiquement similaires ou variés, sans avoir de retour de leur propre jeu). Après l’apprentissage, les participants ont entendu des mélodies (rencontrées dans la phase d’apprentissage pour la moitié d’entre elles, nouvelles pour l’autre moitié) dans un test de reconnaissance dans lequel il leur a été demandé d’indiquer quelles mélodies ils avaient rencontré en phase d’apprentissage. Il a été constaté que l’apprentissage moteur (lorsqu’il est fortement associé à l’apprentissage auditif) améliorait la reconnaissance auditive au-delà de ce que permet l’apprentissage auditif seul. Ces résultats furent expliqués par la capacité des associations sensori-motrices formées pendant l’apprentissage à fournir des indices de reconnaissance supplémentaires et à façonner la perception auditive à travers une simulation mentale des actions planifiées.
Désambiguïsation
La musique peut avoir un certain degré d'ambiguïté en termes de contenu perceptuel et/ou affectif. Comme nous le verrons plus loin, des études indiquent qu'il est possible pour un auditeur de désambiguïser ce contenu en planifiant ou en exécutant des mouvements corporels pendant l'écoute. Les modèles prédictifs fournissent une explication appropriée de cet effet de désambiguïsation (Halász et Cunnington, 2012). La planification ou l'exécution de mouvements corporels permet de prédire systématiquement les conséquences sensorielles de ces actions. Par conséquent, ces états sensoriels prédits peuvent être projetés sur le matériau auditif ou musical, ce qui peut guider (c'est-à-dire désambiguïser) la perception correspondante. Cependant, quelques remarques supplémentaires doivent être prises en compte. Premièrement, la planification des mouvements corporels génère non seulement des prédictions d'états sensoriels, mais également des états mentaux subjectifs liés à l'affect et à l'expressivité (par exemple, la valence, l'activation physiologique, etc.). En ce sens, il est également possible que des états subjectifs soient attribués à la musique (Thompson et al., 2005 ; Juchniewicz, 2008 ; Sedlmeier et al., 2011 ; Maes et Leman, 2013). Deuxièmement, le matériau auditif ou musical n'a pas nécessairement besoin d'être ambigu pour que les mouvements du corps guident notre perception dans une direction spécifique. La musique se présente à l'interprète et à l'auditeur par un flot important de différents éléments et accents auditifs. Les mouvements du corps peuvent aider à diriger l'attention de manière sélective sur certains éléments et, par conséquent, à imposer une certaine structure à la musique. D'après Urista (2003) et Pierce (2007), les mouvements du corps peuvent aider à isoler et à explorer les éléments musicaux comme la mélodie, la pulsation et les niveaux structurels. Par conséquent, la sélection des éléments (et l'identification de ces éléments), facilitée par le mouvement du corps, peut affiner l'écoute de la musique en général et façonner notre perception et notre compréhension de la musique. Troisièmement, les études montrent que le simple fait d’observer les mouvements du corps, plutôt que de les planifier ou de les exécuter, peut également influencer les jugements perceptifs et esthétiques lors de l’écoute de la musique (Thompson et al., 2005 ; Schutz et Lipscomb, 2007 ; Juchniewicz, 2008). Quatrièmement, il est possible que les mouvements corporels exécutés ou observés modulent instantanément la perception auditive, c'est-à-dire pendant l’écoute même de la musique (Thompson et al., 2005 ; Schutz et Lipscomb, 2007 ; Juchniewicz, 2008 ; Repp et Knoblich, 2009 ; Sedlmeier et al., 2011). De plus, il est également possible que, quand on associe plusieurs fois des mouvements corporels à de la musique, les effets de l’action sur la perception musicale peuvent persister davantage, dans le sens où la manière spécifique de percevoir la musique qu’ils engendrent peut être conservée lors d’une simple écoute, sans avoir à planifier ou à exécuter intentionnellement les mouvements corporels correspondants (Phillips-Silver et Trainor, 2005, 2007 ; Maes et Leman, 2013). Ainsi, la musique, via des processus d'apprentissage associatifs sensori-moteurs, peut s'intégrer aux actions et, plus important encore, aux états sensoriels et affectifs inhérents à ces actions. C’est une forme de « conditionnement évaluatif », menant à des effets de désambiguïsation et de sélection d’éléments (Juslin et Västfjäll, 2008 ; Maes et Leman, 2013). De plus, en fonction de la nature du processus d'apprentissage (par exemple : la durée, la continuité, la contingence, etc.), ces effets peuvent être gardés en mémoire pendant des durées différentes.
Dans la section suivante, nous discutons de plusieurs études qui illustrent les effets de la désambiguïsation et de la sélection des éléments. Phillips‑Silver et Trainor (2005, 2007) ont étudié l'interaction entre le mouvement corporel et la perception du rythme musical. Les procédures expérimentales menées dans ces études comportaient une phase d'apprentissage et une phase de test ultérieure. Durant la phase d'apprentissage, les enfants (âgés de sept mois) ont été bougés en rythme sur chaque deuxième pulsation (binaire) ou sur chaque troisième pulsation (ternaire) d’un motif musical rythmique ambigu10 (Phillips-Silver et Trainor, 2005), et les adultes ont répondu activement à ce même motif, en pliant leurs genoux (Phillips-Silver et Trainor, 2007) selon le même principe. Lors de la phase de test subséquente, les préférences d'écoute des nourrissons ont été testées à l’aide des deux versions de ce motif rythmique (sous ses formes binaire et ternaire) (Phillips-Silver et Trainor, 2005). Dans la deuxième étude mentionnée de Phillips-Silver et Trainor (2007), les adultes ont été invités à écouter deux rythmes (binaire et ternaire) et à sélectionner celui qu'ils pensaient correspondre à ce qu'ils avaient entendu pendant la phase d'apprentissage. Les résultats montrent que les préférences et les interprétations étaient orientées vers le stimulus auditif correspondant à la signature rythmique de leur apprentissage lié au mouvement.
Dans une étude de Naveda et Leman (2009), il a été montré que la musique samba possède une ambiguïté polymétrique, alors que les modèles de danse samba ont généralement des métriques binaires. En conséquence, les auteurs suggèrent que « la perception de la samba peut être basée sur le mouvement dans le sens où, à travers le mouvement de soi (du danseur répondant à la musique), les motifs musicaux sont rythmiquement désambiguïsés. »
Dans une étude de Sedlmeier et al. (2011), il a été démontré que des mouvements corporels, réels ou imaginés, canalisés lors de l'écoute de la musique pouvaient co-déterminer les préférences musicales. Les chercheurs ont activé ou inhibé des muscles spécifiques des participants dont l’innervation a été mise en relation avec des émotions positives ou négatives. Cette expérience a été réalisée en demandant aux participants d'effectuer trois types de mouvements corporels ou d'actions spécifiques (activer/inhiber les « muscles du sourire », effectuer des mouvements de tête verticaux/horizontaux et des flexions/extensions des bras). Lors de l'écoute de la musique, l'activation des groupes musculaires associés aux émotions positives a conduit à davantage d’évaluations positives pour cette musique que l'activation des groupes associés aux émotions négatives. Cela suggère que les mouvements corporels, réels et imaginés, peuvent jouer un rôle important dans le développement des préférences musicales.
Su et Pöppel (2012) ont vérifié l'hypothèse selon laquelle un mouvement corporel n'est pas simplement une réaction à l'écoute du stimulus rythmique, mais pourrait activement faciliter le traitement des structures temporelles des phénomènes auditifs. Ils suggèrent que la fréquence d’un mouvement auto-initié, qui n'a pas été étalonnée initialement, pourrait être conditionnée par l'une des périodicités sous-jacentes de la séquence présentée, de telle sorte que l’auditeur commencerait à les « entendre », formant une boucle de rétroaction audio-motrice. Au contraire, les auteurs montrent qu’en l'absence de mouvement manifeste, ce processus de synchronisation doit alors s'appuyer sur l'apprentissage moteur interne et/ou sur la capacité à analyser la séquence. Contrairement aux musiciens, les non-musiciens, d’une part, semblent dépourvus d'une simulation motrice interne efficace qui serait synchronisée lorsque la pulsation n’est pas régulièrement perceptible à travers le rythme, et, d’autre part, ne possèdent pas de connaissances musicales supplémentaires pouvant servir de stratégie compensatoire.
Une étude de Iversen et al. (2009) a montré dans quelle mesure la perception d’une simple phrase rythmiquement ambigüe (c’est-à-dire une série répétitive de deux notes suivies d’un soupir) dépend de son interprétation métrique intrinsèque. Il était demandé aux participants de placer mentalement le temps fort sur la première ou la seconde note de la phrase rythmique. En utilisant la magnétoencéphalographie (egm), il a été démontré que différentes interprétations métriques engendraient différentes réponses neurales, spécifiquement à travers les ondes bêta hautes (20-30 Hz). Ce qui a conduit les auteurs – étant donnée la fonction suggérée des ondes bêta dans le processus moteur – à l’hypothèse que le système moteur influence l’interprétation métrique du son, même en l’absence de mouvement manifeste. Dans une autre étude, Maes et Leman (2013) ont cherché à savoir dans quelle mesure les mouvements expressifs du corps peuvent conditionner la perception de l’expressivité musicale chez l’enfant. Ils ont entraîné les enfants avec une chorégraphie joyeuse ou triste, en réponse à une musique au caractère expressif ambigu. Ensuite, la perception de l’expressivité musicale des enfants a été évaluée, en termes de valence et d’activation physiologique. Les résultats ont suggéré que les qualités expressives de ces mouvements, qu’ils avaient appris à associer à la musique, avaient un impact significatif sur la manière dont les enfants percevaient l’expressivité musicale.
Dans une étude de Repp et Knoblich (2009), il était demandé aux participants de jouer des paires de sons basés sur le principe d’octaves ambigües (gamme de Shepard) et séparés par un intervalle de triton11. Bien que chaque son de la paire soit caractérisé par une classe de hauteurs spécifique (par exemple : tous les Do et tous les Fa #), elles demeurent ambigües en termes de hauteur réelle. Il était demandé aux participants de jouer les paires de notes en pressant les touches correspondantes du piano ou du clavier d’ordinateur, de gauche à droite ou de droite à gauche. Puis, ils devaient juger si chaque intervalle de notes était montant ou descendant. Les résultats ont montré que les participants donnaient, de façon significative, plus de réponses « montantes » quand les pressions de touches allaient de gauche à droite que lorsqu’elles allaient de droite à gauche. De plus, cet effet était plus important pour les pianistes comparé aux musiciens non-pianistes, probablement parce que la correspondance spécifique des notes aux sons est plus importante chez les pianistes (Expérience 1). Ce même effet a été observé lorsque des pianistes observent simplement une autre personne pressant les touches d’un clavier de piano (Expérience 2).
D’autres études ont montré que le simple fait d’observer les mouvements corporels d’un musicien peut altérer les jugements perceptifs et esthétiques portés sur la musique produite. Schutz et Lipscomb (2007) ont cherché dans quelle mesure les informations visuelles apportées par les gestes d’un joueur de marimba peuvent influencer la perception de la durée de la note produite. Pour l’expérience, ont été réalisés des enregistrements vidéo d’un joueur de marimba qui interprète une série de notes en utilisant deux types de gestes (gestes « longs » et gestes « courts »). Les sons produits par les deux types de gestes étaient auditivement impossibles à distinguer. Les éléments visuels et auditifs étaient séparés les uns des autres, puis intervertis, afin de créer des stimuli musicaux réalistes. Ensuite, il a été demandé aux participants d’indiquer la durée des notes perçues par le biais d’un slider 101-points12. Dans des conditions d’écoute seule, il n’y a eu aucune différence entre les évaluations. Cependant, dans des conditions audiovisuelles, les participants ont évalué les sons produits avec des gestes « longs » comme significativement plus longs que les sons produits avec des gestes « courts ». Dans une autre étude, Thompson et al. (2005) ont montré que l’expressivité faciale et les gestes des mains des interprètes (performance vocale et à la guitare) peuvent influencer la perception auditive de la dissonance musicale, de la taille des intervalles mélodiques et de la valence affective chez les auditeurs. Des résultats similaires ont été fournis par Juchniewicz (2008), montrant que le type de mouvement physique effectué par le pianiste en interprétant un extrait musical (c’est-à-dire « aucun mouvement », « mouvements du visage et de la tête », et « mouvements de tout le corps ») modifie le jugement sur la performance pianistique en termes de phrasé, de dynamiques, de rubato et sur la performance musicale en général.
Troubles moteurs
Les effets de l’action sur la perception auditive précédemment examinés étaient enracinés dans des associations auditori-motrices apprises. En dehors de cela, une autre catégorie d’effets de l’action peut être distinguée. Plusieurs études ont montré que les dysfonctionnements moteurs conduisent, chez les individus, à des changements considérables de la perception et de la reconnaissance de caractéristiques auditives et musicales. Pazzaglia et al. (2008) ont soutenu l’existence d’un lien causal entre la reconnaissance auditive et l’exécution d’actions. En travaillant avec des patients atteints d’apraxie13 (apraxie des membres, apraxie bucco‑faciale, ou les deux), ils ont montré que les déficiences lors de l’exécution de gestes sont liées de manière causale à l’incapacité des patients à reconnaître ces gestes par leur simple son. Dans l’étude, il était demandé aux patients atteints d’apraxie d’écouter un son puis de désigner, parmi quatre dessins, celui qui correspondait au son entendu. Les patients atteints d’apraxie des membres et d’apraxie bucco-faciale avaient des difficultés à reconnaître les sons liés respectivement à des mouvements des membres et à des mouvements bucco-faciaux. Les auteurs ont avancé que les lésions dans les aires frontales et pariétales du cerveau, qui sont associées à des déficits dans l’exécution d’actions, étaient responsables des déficiences observées du lien gestes-compréhension. De même, des études ont montré que la perception de caractéristiques musicales est détériorée en présence de dysfonctionnements moteurs. Beste et al. (2011) ont mis en évidence les effets d’une dégradation des mouvements sur le traitement du rythme chez les patients atteints de la maladie de Huntington. Les patients ont montré une activation globalement plus faible des aires du cerveau impliquées dans l’évaluation de rythmes musicaux (structures cérébelleuses). De même, une étude menée par Grahn et Brett (2009) sur des patients atteints de la maladie de Parkinson a montré que des dysfonctionnements des ganglions de la base entraînent des déficiences dans le traitement du rythme. Cependant, comme le soulignent les auteurs, on ne peut exclure le fait que des facteurs pathologiques autres que la détérioration du mouvement contribuent peut-être à la détérioration du traitement du rythme. Par exemple, il a été montré que la réduction de la dopamine14, typique de la maladie de Parkinson, affecte le traitement des émotions (Lotze et al., 2009), ce qui peut moduler encore davantage le traitement des rythmes. Dans une étude similaire menée par Lucas et al. (2013), l’altération du traitement des informations temporelles chez les patients atteints de la maladie de Parkinson a été attribuée à un déficit dans le processus d’intégration sensori-motrice. Ces études, comme d’autres (voir, par exemple, Grahn, 2012 pour une revue), mettent en évidence que la perception rythmique implique un lien étroit entre les processus auditifs et moteurs. L’existence de tels liens a été exploitée à des fins de réhabilitation motrice dans le domaine de la maladie de Parkinson, de la maladie de Huntington, et de l’Accident Vasculaire Cérébral (avc). Dans ce contexte, il a été montré que les activités musicales impliquant le mouvement (contrôle) et le rythme (perception) améliorent les performances motrices générales chez les patients atteints de la maladie de Parkinson (Nombela et al., 2013a, b) et les patients victimes d’un avc (Altenmüller et al., 2009). Il serait intéressant d’aller plus loin dans l’étude de ces questions afin de comprendre dans quelle mesure l’amélioration des capacités motrices permet de meilleures performances lors des tâches perceptuelles.
Discussion
Traditionnellement, les mouvements corporels – qu’ils soient exécutés par un musicien interprète ou par un auditeur – étaient considérés comme la simple extériorisation des processus cognitifs internes impliquant un système de représentation symbolique. Récemment, des preuves empiriques ont montré que le système moteur humain et ses actions peuvent réellement moduler l'expérience d’une personne, sa perception, ainsi que sa compréhension du son et de la musique. Le présent article était destiné à proposer un cadre théorique permettant de comprendre la manière dont la perception auditive est impactée par les effets de l'action. De plus, l'article sert aussi de revue dans laquelle nous étudions l’application de la théorie aux résultats empiriques récents. Le cadre théorique présenté est centré sur la théorie du codage commun (Prinz, 1990 ; Hommel et al., 2001). La principale proposition de cette théorie est que la planification ou l'exécution d'une action recrute les mêmes zones sensori-motrices que la simple perception des conséquences sensorielles de cette action. Nous avons soutenu que l’apprentissage associatif, dans lequel les actions et les états sensoriels sont expérimentés ensemble à plusieurs reprises, est d’une importance cruciale pour que l’action et la perception s’intègrent et que se forment des modèles dits internes. Ces modèles internes contiennent des éléments inverses et prédictifs. Les modèles inverses permettent aux informations sensorielles entrantes d'activer les codes moteurs associés à la production de l’état sensoriel correspondant (voir l'hypothèse de l'appariement direct de Rizzolatti et al., 2001). En revanche, les modèles prédictifs permettent de prévoir les résultats sensoriels à partir d'actions planifiées (Waszak et al., 2012). La combinaison des modèles inverses et prédictifs régule le contrôle moteur pour les actions orientées vers un but (Wolpert et al., 1995 ; Hommel, 1997), ainsi que le traitement de l'information sensorielle provenant de l'environnement externe (Halász et Cunnington, 2012). Nous avons expliqué que les modèles inverses et prédictifs participent aux effets de l’action sur la perception auditive. Les modèles inverses permettent l'activation des codes moteurs par la simple écoute de la musique, ce qui se manifeste souvent par des réponses de mouvement explicites (cf. simulation motrice, résonance motrice, action miroir, etc.). Ces mouvements corporels sont vécus et compris comme étant intentionnels, expressifs et sémantiquement significatifs, de telle sorte que la musique soit vécue et comprise de la même manière. Les modèles prédictifs ont un impact différent sur la perception de la musique. Ils nous permettent de faire des prévisions sur les résultats auditifs d’actions planifiées ou exécutées, guidant et façonnant ainsi la perception du son et de la musique. Les prévisions peuvent atténuer, faciliter ou désambiguïser la perception du son et de la musique. L’ensemble de ces résultats montre que le système moteur humain et ses actions ont un impact sur la perception et la cognition de la musique. Cependant, selon Wilson et Golonka (2013), l'affirmation que la cognition (musicale) est incarnée, a des implications plus radicales et de plus grande portée. Ils prétendent que « l'incarnation n'est pas simplement un facteur comme un autre agissant sur des processus cognitifs autrement désincarnés15 ». Cela soutiendrait la vision cartésienne traditionnelle selon laquelle le cerveau contrôle et « dirige le spectacle » dans le cas de l'engagement d’individus dans des activités musicales. Au lieu de cela, « l'incarnation radicale » englobe une perspective sur le corps, l'esprit et l'environnement en tant qu'éléments substantiels d'un système dynamique (Chemero, 2009). Par essence, le terme « système dynamique » désigne un système constitué d'éléments couplés, mutuellement interactifs et qui évoluent avec le temps (Thelen et Smith, 1998). Une caractéristique importante des systèmes dynamiques est la capacité à s'auto-organiser. L'ordre et la cohérence apparaissent à partir des interactions mutuelles des éléments du système sans l'utilisation d'instructions, de représentations ou de symboles explicites. L'approche par système dynamique peut être appliquée au contrôle et au développement moteur (Turvey, 1990 ; Kelso, 1995 ; Thelen et Smith, 1998 ; Warren, 2006), ainsi qu’à la cognition (Port et Van Gelder, 1995 ; Van Gelder, 1998 ; Beer, 2000 ; Chemero, 2009 ; McClelland et al., 2010 ; Shapiro, 2013). Le cas de la musique semble particulièrement pertinent car de nombreuses activités musicales – par exemple, l’exécution musicale, la danse ou l'écoute de la musique – offrent un environnement dans lequel la dynamique intrinsèque de l'action et de la perception peut être étudiée (Bader, 2013a, b). De plus, il est intéressant de noter que l'engagement des individus dans la musique implique non seulement des éléments sensoriels et moteurs, mais aussi d'autres facteurs, tels que l'introspection – qui renvoie aux états internes comprenant l'affect, la motivation, les intentions, la métacognition, etc. (Barsalou, 2009) – et « l’interaction sociale ». Actuellement, la recherche sur les modèles internes se concentre presque exclusivement sur les processus sensoriels et moteurs. Cependant, afin d’expliquer l'interaction des individus avec la musique, et par extension avec le monde en général, il est nécessaire d'inclure des aspects de l'introspection et de l'interaction sociale dans les théories sur les modèles internes. L'intégration de ces aspects dans le cadre théorique actuel peut approfondir notre compréhension de la musique et de la cognition musicale comme étant fondamentalement incarnées. Dans les paragraphes suivants, nous discutons brièvement ces deux paramètres.
Expressivité musicale
Un aspect important de l’engagement des individus dans la musique – que ce soit par l’écoute ou via l’exécution – est l’expressivité musicale. Les éléments musicaux considérés comme constituant l’expressivité musicale sont multiples : dynamique, articulation, toucher, phrasé, vibrato, etc. Dans le cas de l’exécution de la musique, l’expressivité est souvent – mais pas exclusivement – relative au contenu de l’œuvre, et la tâche principale du musicien est de faire exister cette œuvre sur le plan sonore. Bien sûr, il persiste un certain degré d’interprétation et d’expressivité de la part de l’exécutant. Toutefois, les performances musicales ne reposent pas nécessairement sur une partition pré-écrite, par exemple dans le cas de l’improvisation ou des jam sessions, où la musique peut être produite pour expérimenter différents sons, rythmes, dynamiques, etc. Que la musique soit le résultat d’une composition ou d’une improvisation, la plupart des différents éléments contribuant à l’expressivité musicale sont directement liés à leur origine physique, à savoir les mouvements corporels qui produisent la musique (Repp, 1993 ; Shove et Repp, 1995 ; Johnson, 1997 ; Godøy, 2003 ; Leman, 2007 ; Cox, 2011). Ainsi, on peut considérer que l’expressivité musicale fait appel, au moins dans une certaine mesure, aux sensations kinesthésiques liées à l’effort et à la forme des mouvements du corps (Laban, 1947 ; Laban et Ullmann, 1996). De plus, la sensibilité kinesthésique peut être associée à des phénomènes subjectifs tels que le ressenti, l’émotion, l’intentionnalité, etc. (Leman, 2007 ; Cochrane, 2010 ; Sievers et al., 2013). En ce sens, le corps humain a été considéré comme le médiateur entre les processus sensoriels et moteurs et les représentations mentales (Leman, 2007). Un rôle similaire a été attribué au corps dans le contexte de l’écoute musicale. Un auditeur est supposé être capable de décoder – c’est-à-dire identifier, imaginer ou même simuler physiquement – les éléments d’expressivité musicale liés au mouvement physique et à l’espace en fonction de son propre répertoire d’actions et de sa notion de l’espace. Cette sensibilité kinesthésique peut être liée à des aspects mentaux subjectifs du ressenti, de l’émotion, de l’intentionnalité, etc. De la même manière que le fait de planifier ou d’exécuter une action permet aux individus de prédire les conséquences sensorielles de cette action, il est possible d’en prédire les conséquences au niveau mental (par exemple le ressenti, l’émotion, l’intentionnalité). Ainsi, il est raisonnable de supposer que ces prédictions modulent la perception de l’expressivité musicale. La recherche n’a apporté que récemment des résultats empiriques soutenant cette idée (Sedlmeier et al., 2011 ; Maes et Leman, 2013). De plus, il a été démontré que l’observation des gestes des interprètes influence la perception de l’expressivité musicale des individus (Davidson, 1993 ; Thomson et al., 2005 ; Juchniewicz, 2008). Ces résultats permettent d’inclure l’expressivité dans les théories de modélisation prédictives appliquées à la perception et à la cognition de la musique. Selon les théories actuelles des modèles internes, nous avons des raisons de croire que la relation entre les états mentaux et l’action fonctionne dans un sens comme dans l’autre (cf. modèles inverses). Ainsi, un état subjectif associé à la musique est censé ajuster les réponses motrices à celle-ci. Cette idée est soutenue par une étude de Van Dyck et al. (2013). En fonction de la vision actuelle, les modèles internes guident les actions dirigées vers un but aussi bien que le traitement sensoriel. En ce sens, les modèles internes sont les constituants basiques de l’interaction d’un individu avec le monde extérieur. Nous préconisons que cette vision devrait être élargie en intégrant d’autres aspects de l’introspection (affect, motivation, intentions, métacognition, etc). Les comportements musicaux permettent d’étudier les interactions entre les processus sensoriels, moteurs et introspectifs, ainsi que la manière dont ces éléments s’associent les uns aux autres. La vision actuelle de la cognition musicale incarnée considère l’introspection comme un résultat des processus de simulation motrice (Leman, 2007). En d’autres termes, la musique induit des mouvements qui déclenchent eux-mêmes des aspects du ressenti, de l’émotion, de l’intentionnalité, etc. Nous soutenons que la relation entre l’esprit et le corps peut être bidirectionnelle, car certains aspects de l’introspection peuvent aussi influencer les réponses motrices à la musique.
Interactions sociales
Dans la vie quotidienne, une grande partie de nos expériences se déroule dans un contexte social. Un des exemples les plus probants est l’engagement des individus dans la musique, comme au sein d’un ensemble musical (Bastien et Hostager, 1988 ; Seddon, 2005), ou lorsque des individus dansent ensemble dans un club ou lors d’un festival. Ces activités peuvent être considérées comme des formes d’actions communes impliquant des actions coordonnées, des intentions, attentions et représentations partagées, etc. (Keller, 2008 ; Goebl et Palmer, 2009 ; Loehr et Palmer, 2011 ; Obhi et Sebanz, 2011 ; Pacherie, 2012 ; Phillips-Silver et Keller, 2012). Dans le contexte de l’exécution musicale et de la danse, il a été montré que ces actions communes favorisent le comportement social (Kirschner et Tomasello, 2010) et renforcent le sentiment d'appartenance à un « nous » (Pacherie, 2012). En outre, des études montrent que le contexte social peut moduler l'expérience et la perception de la musique (Egermann et al., 2011 ; Liljeström et al., 2012). Actuellement, la majeure partie des recherches est consacrée à l’étude d’actions communes afin d’en dévoiler les mécanismes sous-jacents. De nombreux résultats suggèrent que ces mécanismes sont similaires à ceux impliqués dans le contrôle moteur individuel volontaire et le traitement de l’information. Par conséquent, des modèles internes contenant une composante inverse et une composante prédictive pourraient expliquer de quelle manière les individus réussissent à s’adapter dynamiquement aux changements de comportement de chacun. Les modèles inverses sont importants pour restituer les résultats sensoriels d’actions communes attendus sous forme d’actions planifiées. Par ailleurs, les modèles prédictifs facilitent l’anticipation (la prédiction) des conséquences sensorielles de ses propres actions et de celles des autres.
Notre discussion sur les composantes d’« introspection » et d’« interaction sociale » indique que l’activité musicale implique un système dynamique polymorphe dans lequel le corps, l’esprit et l’environnement extérieur interagissent continuellement et mutuellement. Dans le cas du jeu instrumental, la musique peut être considérée comme le résultat d’une interaction dynamique entre le système moteur et sensoriel des musiciens, les contraintes et opportunités qu’offrent la musique écrite, les instruments de musique et l’environnement social, ainsi que les intentions des musiciens, leur personnalité, leur état d’esprit, etc. Le système dans lequel ces composantes interagissent est un système ouvert, dans le sens où aucune des composantes individuelles n’a de priorité causale dans la production de la musique (Thelen et Smith, 1998). Il est cependant possible que le poids des composantes individuelles sur le son produit varie selon l’activité musicale spécifique (par exemple, l’improvisation musicale, l’interprétation historiquement informée, les jam sessions avec un accent sur l’interaction sociale, etc.). De la même manière, l’écoute de la musique peut être considérée comme un processus dynamique, dans lequel l’expérience, la perception, et la compréhension de la musique sont guidées et façonnées par la dynamique intrinsèque du corps, de l’esprit et de l’environnement extérieur. En conclusion, adopter une approche fondamentalement incarnée de la cognition musicale requiert que nous considérions la pratique musicale – impliquant la coordination, le contrôle et le développement moteurs – et la cognition musicale comme des processus dynamiques. L’intégration des théories sur les modèles internes et sur les systèmes dynamiques peut ainsi nous aider à comprendre la manière dont notre corps, notre esprit, et l’environnement extérieur interagissent dans notre engagement avec l’acte musical.
Quelques mots à propos des auteurs :
Pieter-Jan Maes, Department of Music Research, McGill University, Montreal, QC, Canada
Marcelo M. Wanderley, Department of Music Research, McGill University, Montreal, QC, Canada
Caroline Palmer, Department of Psychology, McGill University, Montreal, QC, Canada
Marc Leman, Department of Musicology, Ghent University, Ghent, Belgium
Traduction de l’article intitulé « Action-based effects on music perception », publié dans Frontiers in Psychology le 03 janvier 2014. doi: 10.3389/fpsyg.2013.01008. Cette traduction est publiée avec l’autorisation de la revue et des auteurs.
Traduit en français par : Alban Briceno, Arthur Delcambre, André Dupont, Élodie Fortin, Vincent Guérin, Geoffrey Maréchal et Théo Petit, sous la direction de Christian Hauer, dans le cadre d’un séminaire du Master Arts de l’université de Lille, année universitaire 2017-2018
Édité dans sa version originale par : Adam M. Croom, University of Pennsylvania, usa
Révisé dans sa version originale par : Adam M. Croom, University of Pennsylvania, usa, Martin Lotze, University of Greifswald, Germany, Michael Hove, Harvard Medical School, usa
Déclaration de conflit d'intérêts : Les auteurs déclarent que ce travail de recherche a été mené en l'absence de toute relation commerciale ou financière qui pourrait être interprétée comme un conflit d'intérêts potentiel.
Received: 07 October 2013; paper pending published: 31 October 2013; accepted: 17 December 2013; published online: 03 January 2014.
Citation: Maes P-J, Leman M, Palmer C and Wanderley MM (2014) Action-based effects on music perception. Front. Psychol. 4:1008. doi: 10.3389/fpsyg.2013.01008 This article was submitted to Theoretical and Philosophical Psychology, a section of the journal Frontiers in Psychology.
Copyright © 2014 Maes, Leman, Palmer and Wanderley. This is an open-access article distributed under the terms of the Creative Commons Attribution License (cc by). The use, distribution or reproduction in other forums is permitted, provided the original author(s) or licensor are credited and that the original publication in this journal is cited, in accordance with accepted academic practice. No use, distribution or reproduction is permitted which does not comply with these terms.