Navigation – Plan du site

AccueilNuméros31Dossier. Humanités numériques, co...L’analyse quantitative des médias...

Dossier. Humanités numériques, corpus et sens

L’analyse quantitative des médias sociaux, une alternative aux enquêtes déclaratives ?

La mesure de la popularité des personnalités politiques sur Twitter
Quantitative Analysis of social Media, an Alternative to Declarative Surveys? Research Questions Raised by Measuring the Popularity of Political Figures on Twitter
Julien Boyadjian et Julien Velcin
p. 111-135

Résumés

L’article présente les premiers résultats d’une recherche interdisciplinaire dont l’objectif est d’identifier les logiques sociales de production des messages politiques sur Twitter. Cette recherche vise précisément à démontrer l’intérêt d’une approche interdisciplinaire de l’objet. Il s’agit, d’une part, d’élaborer des algorithmes permettant d’analyser de manière supervisée et non supervisée un très grand nombre de messages politiques afin d’en identifier la polarité et la cible et, d’autre part, de comparer ces informations à des données de sondages d’opinion afin de mieux saisir les relations (ou l’absence de relations) entre les dynamiques d’opinion en ligne et hors ligne.

Haut de page

Texte intégral

  • 1 En 2012, 36 % des internautes français âgés de 16 à 74 ans déclaraient publier du contenu sur le we (...)

1Dans les secteurs de la communication, des études de marché et du marketing (Boullier, Lohard, 2012,) tout comme dans le champ académique (Schober et al., 2016), les médias sociaux (Twitter, Facebook, Youtube, etc.) sont mobilisés comme de nouveaux observatoires des tendances de la société. Le développement de ces plateformes dans la première décennie des années 2000 a permis aux internautes ne disposant pas de compétences informatiques spécifiques de publier facilement des contenus écrits ou visuels sur les sujets et préoccupations de leurs choix (Cardon et al, 2006). Ainsi, chaque jour, des millions d’individus1 commentent-ils l’actualité (élections, catastrophes naturelles, etc.), leur vie privée (goûts culturels, photographies, statut matrimonial, etc.) ou des produits de consommation. Ces messages constituent des indices précieux concernant les pratiques, représentations et opinions des internautes. À ce titre, ils forment un matériau particulièrement intéressant à investiguer lorsque l’on cherche à étudier le comportement des consommateurs ou des citoyens. En outre, grâce au développement d’outils informatiques permettant de collecter, d’archiver et d’analyser (web-tracker, crawler, moteurs de recherche, etc.) d’immenses volumes de données (ce qu’il est convenu d’appeler le « big data »), ces phénomènes numériques peuvent être objectivés et quantifiés à grande échelle, sans qu’il soit nécessaire de recourir à une interrogation par questionnaire. L’analyse des médias sociaux permet donc d’étudier quantitativement et de manière inédite certains des objets canoniques des enquêtes déclaratives, comme les décisions d’achat ou les intentions de vote.

  • 2 À ce stade de l’analyse, nous pouvons nous fonder sur la définition courante de cette notion que do (...)

2Enregistre-t-on alors, avec les médias sociaux, les mêmes tendances de société qu’avec les techniques traditionnelles d’enquête en sciences sociales, et notamment le sondage probabiliste ? Afin de répondre à cette question, nous proposons de nous focaliser sur un objet d’étude commun à ces deux techniques d’enquête : la « popularité »2 au sein de l’électorat français de deux personnalités politiques, Nicolas Sarkozy et François Hollande. Leur courbe de popularité sur ce réseau social – i.e. la tonalité, positive ou négative, des messages publiés à leur sujet – suit-elle la même évolution que dans les sondages ? Dans l’hypothèse où la réponse apportée à cette question serait négative, comment pourrait-on en expliquer les différences ? Seraient-elles imputables à la nature du matériau recueilli – les réponses de questionnaire d’un côté, les messages auto-publiés par les individus sur Twitter de l’autre –, à la fiabilité de l’instrument de mesure ou encore à la (non-)représentativité des populations étudiées ?

3L’objectif de l’article est moins d’apporter des éléments de réponse définitifs que de soulever un certain nombre d’interrogations méthodologiques et épistémologiques auxquelles nous nous sommes trouvés confrontés dans le cadre d’un projet de recherche pluridisciplinaire visant à analyser les logiques de production et de circulation des messages politiques (i.e. relatifs au champ politique spécialisé) sur Twitter. Après avoir exposé les enjeux et controverses méthodologiques identifiés dans la littérature, nous discuterons des difficultés auxquelles nous avons été confrontées, d’une part, au moment de la construction du dispositif d’enquête et, d’autre part, dans la tentative d’interprétation des premiers résultats exploratoires obtenus.

Encadré 1. ImagiWeb, un projet de recherche interdisciplinaire d’étude du web politique

  • 3 Le projet ImagiWeb a été financé par l’anr entre 1er avril 2012 et le 30 septembre 2015 (anr-2012-c (...)

Financé par l’Agence nationale de la recherche (anr) pour une durée de trois ans3, « Images sur le Web : analyse de la dynamique des images sur le Web 2.0. » (ImagiWeb) est un projet de recherche interdisciplinaire réunissant des chercheurs en sciences sociales et en informatique. L’objectif est de combiner une approche informatique et sociologique du web 2.0 afin d’analyser les logiques sociales de production et de circulation des messages politiques sur l’internet, en particulier sur le réseau social Twitter. À cette fin, le projet réunit des informaticiens appartenant à des centres de recherche publics – le Laboratoire informatique d’Avignon (lia) et le laboratoire Entrepôts, représentation et ingénierie des connaissances (eric) – et privés – la société ami software et la compagnie Xerox –, ainsi que des chercheurs en sciences humaines et sociales, notamment des sémiologues – appartenant au centre de recherche et développement du groupe Électricité de France (edf) – et des politistes du Centre d’étude politique de l’Europe latine. L’article ne présente qu’une partie du projet qui comprend également une analyse agrégée temporelle de l’opinion et l’élaboration d’un système de navigation fourni à l’utilisateur (Velcin et al., 2014).

Twitter, un nouvel instrument prédictif des tendances de société ?

  • 4 L’attrait des chercheurs pour Twitter s’explique sans doute par une plus grande facilité d’accès au (...)

4La question de l’existence (ou de l’absence) de liens entre les phénomènes observés sur les médias sociaux et ceux observés dans le monde social « réel » est au centre d’une florissante littérature depuis la fin des années 2000. Ainsi, en 2014, dans un article de synthèse, Andreas Jungherr (2014) dénombrait-il pas moins de 115 études consacrées uniquement aux messages politiques publiés sur le réseau social Twitter4. Animés par une démarche positiviste similaire à celle des promoteurs des sondages d’opinion à leur début (Blondiaux, 1998) – et sans doute renforcée par la croyance selon laquelle il serait désormais possible de parvenir à un enregistrement « neutre » des opinions sur le web, sans intervention de l’enquêteur –, un certain nombre de ces travaux ont, dans un premier temps, cherché à démontrer que les flux de messages sur Twitter permettaient de prédire, et parfois même de manière plus fiable que les sondages représentatifs, des phénomènes du monde social « réel », tels les cours de la bourse (Bollen, Mao, Zeng, 2010), ceux du box-office (Asur, Huberman, 2010) ou, dans une perspective qui nous intéresse ici plus directement, les fluctuations de l’opinion publique et les résultats des élections (pour une synthèse de ces travaux, voir notamment Gayo-Avello, 2013 et Schober et al., 2016). Afin de démontrer le caractère « prédictif » de Twitter, les auteurs analysent le nombre de tweets publiés à propos de chaque candidat (ou de chaque parti) et/ou la tonalité de ces messages via des techniques de fouille d’opinion (opinion mining ou sentiment analysis). Enregistrant une corrélation statistique positive entre les données offline et online – l’ordre des candidats les plus cités ou les plus appréciés sur Twitter étant identique à celui des urnes –, les auteurs en concluent que l’analyse des tweets est belle et bien « prédictive » des tendances de société.

5Par la suite, d’autres recherches ont fortement contesté les conclusions de ces travaux. D’une part, elles démontrent l’absence de corrélation systématique entre les données en ligne et hors ligne : au sujet de la réforme du système de santé américain, par exemple, Annice Kim et ses co-auteurs (2014) n’identifient aucune relation significative entre les données de sondage et l’analyse des opinions sur Twitter ; d’autre part, elles soulignent un certain nombre de biais, problèmes et impensés méthodologiques (Couper, 2013 ; Gayo-Avello, 2013 ; Smith, 2013). Certains choix et arbitrages en apparence anecdotiques – la période d’étude retenue dans la sélection des messages ou le fait d’inclure ou non dans l’analyse des tweets relatifs à des « petits » partis ou candidats – peuvent engendrer des résultats très différents, voire invalider la « prédiction » du vainqueur (Jungherr, Jürgens, Schoen, 2011). Plus fondamentalement, ces travaux se trouvent confrontés à deux principales limites (Schober et al., 2016 ; Diaz et al., 2016) : l’absence de représentativité des messages analysés et les difficultés relatives à l’analyse automatisée de leur contenu.

  • 5 Dans le présent article, sauf mention contraire, les citations issues de travaux anglophones sont t (...)

6La première limite concerne l’absence de représentativité sociologique des populations inscrites sur les médias sociaux. Aux États-Unis (Boyd, Crawford, 2012) comme en France (Boyadjian, 2016), les individus qui publient des messages sur Twitter – et, a fortiori, des messages relatifs à l’actualité politique – ne sont pas représentatifs de la population totale : les catégories les plus jeunes, diplômées et urbaines de la population sont en effet surreprésentées sur ces espaces. Si cette absence de représentativité n’est pas en soi problématique – elle peut même être un atout pour des recherches ciblées sur certaines sous-populations, comme les étudiants des grandes écoles, ou les jeunes militants des partis politiques, très présents sur ce réseau (Théviot, 2014) –, elle est en revanche plus préoccupante pour des études dont l’ambition est de « sonder » de larges pans de la population, et notamment, dans le cas qui nous intéresse, la population des électeurs. En effet, comment expliquer que l’analyse d’échantillons non représentatifs du corps électoral puisse être davantage prédictive que des sondages probabilistes ? Dans les travaux précités, cette question est rarement posée. Certains renvoient cette interrogation à une préoccupation du passé, la recherche de la représentativité étant consubstantielle à la nécessité d’échantillonner des populations qu’il était techniquement impossible d’interroger dans leur entièreté (Blondiaux, 1998) ; une impossibilité qui serait désormais levée à l’ère du big data : « Rechercher un échantillon aléatoire à l’âge du big data revient à s’accrocher à un fouet de cheval à l’époque de la voiture »5 (Mayer-Schonberger, Cukier, 2013 : 13). Reste que la population internaute est encore loin de recouper la population totale (Insee, 2014). Michael F. Schober et ses collaborateurs (2016) identifient plusieurs hypothèses qui pourraient permettre de résoudre ce paradoxe d’une analyse non représentative, bien que potentiellement prédictive des tendances d’opinion. Première hypothèse : les individus actifs sur Twitter seraient des leaders d’opinion, plus politisés que la moyenne, influents dans leur entourage et dont les avis compteraient plus que celles des individus « ordinaires ». Sonder ces leaders d’opinion reviendrait, indirectement – et sans doute avec un temps d’avance – à sonder leur entourage et, in fine, l’ensemble de la population. Seconde hypothèse : les discussions sur Twitter refléteraient avant tout les préoccupations et thématiques mises à l’agenda par les grands médias (Neuman et al., 2014). À bien des égards, le réseau social apparaît comme une chambre d’écho du champ médiatique. Cet agenda médiatique influencerait indirectement les préoccupations des électeurs, selon la thèse bien connue de Maxwell E. McCombs et Donald L. Shaw (1972). Ces hypothèses n’ont pour l’heure pas (encore) trouvé de validation empirique totalement satisfaisante, la plupart des travaux questionnant la représentativité de Twitter ne disposant pas – à quelques exceptions près, que l’on abordera par la suite (Diaz, 2016) – de données précises concernant la sociologie de ses usagers.

  • 6 L’apprentissage automatique ou artificiel (machine learning en anglais) regroupe des techniques iss (...)

7La deuxième limite des travaux affirmant la prédictivité du réseau social concerne les techniques utilisées pour identifier la « tonalité » (ou « polarité ») des messages analysés. Dans leur grande majorité, ces recherches ne reposent pas sur des techniques élaborées d’apprentissage automatique6, mais se contentent souvent de mobiliser des lexiques de termes considérés comme a priori « positifs » et « négatifs ». Ces lexiques rencontrent leurs limites lorsqu’il s’agit d’appréhender des constructions syntaxiques complexes ou l’usage de certaines figures de style telles l’ironie ou le sarcasme, très présentes sur Twitter (Boullier, Lohard, 2012). Lorsqu’ils sont combinés à des techniques d’apprentissage automatique pour donner des approches dites « hybrides », les résultats obtenus peuvent être plus satisfaisants, mais largement dépendants d’une phase cruciale de prétraitement des données qui rendent les conclusions difficilement généralisables à d’autres sujets. Par exemple, Farhan Hassan Khan et ses co-auteurs (2013) montrent des scores de réussite de l’ordre de 83 à 85 % pour discriminer trois tonalités d’opinion.

  • 7 Les recherches questionnant l’existence de relations entre les phénomènes online et offline ont par (...)

8À la suite d’autres chercheurs (Schober et al., 2016 ; Boullier, Lohard, 2012), nous faisons le pari qu’une collaboration scientifique très étroite entre social scientists et data scientists peut aider à surmonter certaines de ces difficultés. Alors même que les terrains numériques offrent la possibilité de « décloisonner » les disciplines universitaires, le dialogue entre sciences informatiques et sciences humaines et sociales (shs) reste encore, dans les faits, relativement peu développé. En effet, les recherches questionnant l’existence de relations entre les phénomènes online et offline ont été principalement menées par des chercheurs en sciences informatiques (ou computer science)7 qui ne partagent pas nécessairement les références théoriques et les réflexions épistémologiques des chercheurs en shs. Ces derniers peuvent, de leur côté, se retrouver relativement démunis face aux enjeux techniques soulevés par la captation et le traitement de millions de données numériques. Dès lors, il apparaît fondamental d’instaurer une véritable collaboration scientifique entre informaticiens et chercheurs en shs afin d’objectiver les enjeux théoriques se cachant derrières certains choix et arbitrages techniques.

9Afin d’identifier les logiques sociales de production et de circulation des messages politiques sur Twitter, nous avons cherché à construire un protocole d’enquête qui tienne compte simultanément des enjeux sociologiques (concernant notamment la capacité à évaluer la représentativité des messages collectés) et techniques (relatifs à la constitution d’algorithmes de classification automatique des messages) inhérents à une telle analyse.

L’élaboration du protocole de recherche ou la mise en tension des impératifs sociologiques et techniques d’une analyse des tweets politiques

  • 8 Un algorithme est une suite d’opérations (instructions) réalisées par un programme informatique pou (...)

10L’objectif du projet consiste précisément à élaborer des algorithmes8 permettant d’analyser de manière automatique la tonalité, mais aussi le contenu des messages politiques publiés par un panel représentatif des usagers « politiques » de Twitter (i.e. des individus qui publient, plus ou moins régulièrement, des messages en rapport avec le champ politique spécialisé), et dont les propriétés sociologiques ont été préalablement identifiées à l’aide d’un questionnaire. Nous avons souhaité concilier les apports d’une analyse informatisée des messages (i.e. la possibilité d’étudier d’importants volumes de messages générés en dehors de toute interaction de recherche) et d’une enquête plus « classique » d’interrogation par questionnaire (i.e. la possibilité de situer socialement et politiquement les auteurs des messages collectés).

11Chaque étape de la réalisation du projet (échantillonnage de la population et constitution des panels, sélection des corpus de tweets à annoter, élaboration des algorithmes) a soulevé un certain nombre d’interrogations techniques et épistémologiques ici exposés.

Constitution d’un panel de producteurs de messages politiques (le « panel Twitter »)

12Afin de déterminer les propriétés sociologiques des individus qui publient des messages politiques sur Twitter et ainsi questionner la représentativité des messages analysés, nous avons choisi d’administrer un court questionnaire à un échantillon aléatoire d’inscrits. Pour ce faire, nous avons recensé l’ensemble des utilisateurs susceptibles de publier des messages politiques sur le réseau en collectant, sur une période de temps donnée, l’intégralité des tweets comprenant un ou plusieurs mots clés politiques. Nous avons ainsi collecté la totalité des tweets publiés sur le réseau social entre le 1er et le 31 mars 2012 comprenant le nom, le surnom ou les hashtags associés aux candidats de l’élection présidentielle française du printemps 2012. Durant cette période de forte politisation de l’actualité, plus de 2 800 000 tweets ont été collectés, provenant de 248 628 comptes uniques.

13De cette base, nous avons extrait un échantillon aléatoire de 20 000 comptes que nous avons soumis à une analyse « manuelle » d’éligibilité. Pour être éligibles au panel, les comptes devaient avoir pour auteur un individu unique (et non une organisation, un média ou une entreprise) et être rédigés majoritairement en langue française. Nous avons ensuite suivi les 10 229 comptes éligibles afin qu’ils consultent notre profil ; celui-ci les invitait à répondre à un questionnaire en ligne, comprenant une vingtaine de questions sociodémographiques (sexe, âge, profession et catégorie socioprofessionnelle, niveau d’études, origine sociale, etc.) et politiques (orientation politique, trajectoire de vote, activités militantes, etc.). Après une vague de relances, ce sont 658 individus (6,4 % des comptes éligibles) qui ont répondu au questionnaire et 608 (6,3 %) qui ont accepté de faire partie du panel (le questionnaire spécifiait alors que leurs tweets seraient collectés et analysés – anonymement – par une équipe de chercheurs). Depuis lors, aucune autre interaction n’a eu lieu avec les enquêtés.

Encadré 2. Constitution d’un panel de contrôle

Afin d’évaluer dans quelle mesure les individus ayant accepté de répondre à notre questionnaire étaient représentatifs de l’ensemble des comptes éligibles (et ainsi d’objectiver les possibles biais de sélection propres à toute enquête par questionnaire), nous avons constitué, en parallèle de ce panel de « répondants », un panel de contrôle constitué d’un échantillon aléatoire de 620 individus qui n’avaient pas répondu au questionnaire. Nous avons alors cherché à qualifier socialement et politiquement ces utilisateurs à partir des informations parcellaires que les internautes indiquent parfois sur les réseaux sociaux ou leurs blogs. Ce panel de contrôle se compose donc à la fois d’individus pour lesquels nous disposons d’une ou plusieurs informations sociodémographiques mais également d’individus pour lesquels nous n’en possédons aucune. Il ressort de l’analyse que les non-répondants dont les positions sociales ont pu être identifiées ne présentent pas de différences sociologiques notables avec les « répondants » (Boyadjian, 2016). Dans la suite de cet article, les résultats présentés sont, dans leur intégralité, issus du panel « répondants ».

Constitution des corpus à annoter

  • 9 En raison d’une panne inexpliquée de notre logiciel, aucun tweet n’a pu être collecté durant les mo (...)

14Durant une période de deux ans, du 1er janvier 2012 au 31 décembre 20149, nous avons collecté et archivé la totalité des tweets publiés par le panel contenant des occurrences relatives aux deux personnalités politiques étudiées, Nicolas Sarkozy et François Hollande. Sur la période concernée, 31 889 tweets contenant l’occurrence Hollande et 18 850 tweets contenant l’occurrence Sarkozy ont été collectés par notre logiciel.

  • 10 Dans la plupart des baromètres sondagiers, la popularité des hommes politiques est testée une fois (...)

15Nous avons ensuite sélectionné aléatoirement environ 2 000 tweets par mois pour chaque candidat. Cette sélection aléatoire permet de travailler sur des échantillons de taille raisonnée (afin de faciliter un contrôle « manuel » de l’évaluation automatique des algorithmes), mais suffisamment importante pour autoriser le traitement statistique. L’objectif est d’obtenir, chaque mois, un taux de tweets positifs et négatifs pour chaque homme politique (par exemple, en janvier 2012, % tweets citant Nicolas Sarkozy étaient négatifs). Afin de faciliter la comparaison avec les résultats de sondage et notamment les baromètres de popularité, nous avons retenu le mois10 comme unité temporelle.

Élaboration des algorithmes d’annotation automatique des tweets

  • 11 Les algorithmes d’analyse automatique utilisent souvent des listes de mots classés a priori comme p (...)

16Afin de comparer les dynamiques d’opinion observées sur Twitter avec celles enregistrées par les sondages, il est rapidement apparu nécessaire de recourir à des algorithmes automatiques d’annotation. Évaluer « manuellement » un corpus de 50 739 tweets est inenvisageable, notamment pour des raisons de coût. Or, dans la littérature spécialisée (pour une revue, voir Martinez-Camara et al., 2012), aucun algorithme ne s’est avéré totalement ajusté aux spécificités de notre matériau. Les tweets évoquant les hommes politiques sont souvent équivoques, mobilisent des références implicites, font preuve de sarcasme, d’ironie, prennent parfois la forme de l’antiphrase, etc. Dès lors, il est difficile d’appréhender la complexité sémantique de ces messages en mobilisant uniquement des « listes d’opinion »11 (Agarwal et al., 2011) ou même des algorithmes élaborés pour d’autres corpus, y compris francophones (Benamara, Moriceau, Mathieu, 2014). Le recours à des techniques d’apprentissage automatique est une solution pouvant tirer profit de ces listes tout en capturant des motifs plus fins dans les discours.

17De plus, au-delà de la simple « tonalité » ou « polarité » des messages (négative, neutre ou positive), nous avons souhaité obtenir des informations plus fines concernant le contenu même des tweets (la « cible » du message). Or, il existe peu de travaux ayant entrepris d’élaborer des algorithmes pour détecter la thématique des messages. En effet, la plupart des travaux universitaires se contentent d’associer une tonalité à l’ensemble des messages se référant à une personnalité politique donnée sans tenir compte des thématiques abordées. D’autres travaux ont bien exploré cette voie, mais sur des matériaux bien différents de la politique (Liu, 2012). Ainsi tous les tweets contenant le nom d’un homme politique donné (« François Hollande » par exemple) sont-ils assimilés à des intentions de vote ou à des jugements très généraux sur leur action. Or, les tweets se référant à des hommes politiques peuvent être des opinions plus ciblées sur leur aspect physique, leur responsabilité éthique ou encore leur vie privée, par exemple. On ne peut donc assimiler l’ensemble de ces tweets, quel que soit leur contenu, à des intentions de vote.

18Eu égard à la diversité et à la complexité sémantique des messages politiques publiés sur le réseau social, il est apparu essentiel d’associer à cette phase d’élaboration des algorithmes l’expertise de politistes habitués à analyser et surtout à contextualiser des verbatim de citoyens « ordinaires ». À ce titre, la première étape d’élaboration des algorithmes d’annotation a été supervisée par les politistes du projet. Nous avons d’abord analysé « manuellement » un lot d’environ 200 messages tirés au sort parmi les plus de 50 000 du corpus. Nous avons tenté d’esquisser une typologie des tweets analysés en fonction du contenu des messages (la « cible »). Nous avons progressivement affiné une liste de huit cibles. Les messages analysés pouvaient alors concerner :

  • le « bilan » de l’homme politique ;

  • son « projet » ;

  • son « positionnement » (c’est-à-dire ses prises de position sur un certain nombre de sujets) ;

  • sa « performance en matière de communication » ;

  • sa « compétence » dans différents domaines ;

  • son « éthique » (honnêteté, sincérité ou compromission dans des affaires politico-judiciaires, etc.) ;

  • certaines dimensions plus « personnelles » (son apparence physique, son charisme, sa vie privée) ;

  • sa popularité (sondages d’opinion).

19Nous avons appliqué cette grille d’évaluation à un premier lot de 10 000 tweets et avons renseigné manuellement, pour chaque tweet, une polarité (positive, neutre ou négative) et une cible (suivant la liste ci-dessus) en utilisant une application web qui a été réalisée dans le cadre du projet12.

Encadré 3. Coder les tweets, une science… humaine

Une dizaine de membres du projet – politistes, sociologues, sémiologues et informaticiens – ont codé ces premiers lots de tweets. Il est apparu que les politistes se distinguaient de leurs autres collègues par une plus grande « mémoire » politique, et donc une plus grande capacité à saisir le contexte politique auquel la plupart des messages se réfèrent implicitement. En revanche, nous avons pu observer, et ce quelle que soit la discipline académique des codeurs (et même parmi les politistes, qui endossent le rôle d’« experts »), des conflits de lecture concernant le sens de certains messages politiques. Le codage « manuel » de tweets reste donc un travail d’interprétation humaine, au même titre que l’analyse d’entretiens qualitatifs, et ne saurait, dans ces conditions, être une science « exacte » (tout comme, a fortiori, le codage automatique des algorithmes).

  • 13 Les machines à vecteur support (ou Support Vector Machines en anglais) se sont révélées être des te (...)
  • 14 La régression logistique est une technique classique de classification automatique issue de l’analy (...)
  • 15 La mesure tfxidf (de l’anglais Term Frequency versus Inverse Document Frequency) estime le caractèr (...)

20Ce jeu de données a été analysé par les informaticiens du projet afin de mettre au point des algorithmes innovants adaptés à notre problématique. Pour ce faire, nous avons profité des compétences complémentaires des partenaires du projet pour essayer plusieurs approches. En particulier, nous avons travaillé sur des approches mêlant l’utilisation de caractéristiques linguistiques fines des textes (par exemple, la décomposition des hashtags, la prise en compte de la négation) et la puissance d’outils statistiques issus de l’apprentissage automatique (par exemple, des machines à vecteur support ou svm13, la régression logistique avec régularisateur14). Dans ce schéma, la sélection des bonnes caractéristiques (par exemple, utiliser uniquement des mots ou des séquences de mots appelés des syntagmes) et la manière dont on les pondère (par exemple, simple fréquence d’apparition, mesure de tfxidf15 ou des mesures plus avancées) sont des éléments essentiels à la réussite des algorithmes. Soulignons que notre problème se décompose en deux sous-problèmes liés : l’annotation automatique de la cible de l’opinion (bilan, projet, éthique, etc.) d’une part, et l’annotation automatique de la polarité (positive, négative, neutre) d’autre part.

21Une fois ce jeu de données traité, les informaticiens ont lancé une première version des algorithmes d’annotation automatique sur un nouveau jeu de données. La justesse et la pertinence de ces annotations ont ensuite été évaluées par les politistes. C’est donc à partir d’une procédure itérative qu’ont été élaborés et affinés les algorithmes d’annotations. Arrivés à un taux d’erreur jugé satisfaisant (de l’ordre de 70 % pour prédire la polarité), nous avons évalué l’ensemble du corpus (50 739 tweets) de façon entièrement automatique.

Constitution de la base de données « sondages » et comparaison avec la base « Twitter »

22Nous avons pu comparer cette base de tweets dont la tonalité a été annotée automatiquement avec des résultats de sondage d’opinion. A priori anodine, la sélection de ces données sondagières (notre base « sondages ») et leur comparaison avec les données « Twitter » ont soulevé un certain nombre d’interrogations. Avant de les évoquer, précisons que les sondages ne doivent pas être appréhendés comme un étalon de mesure scientifique auquel il s’agirait de se situer, voire de se conformer. Autrement dit, nous ne pensons pas que les réponses de sondages reflètent les opinions « réelles » des agents sociaux, si tant est qu’adopter une vision réifiée des opinions ait un sens (Zaller, 1992). Les sondages produisent un certain nombre de biais et d’artefacts que toute une tradition de recherche en shs a, de longue date, mis au jour (Bourdieu, 1973 ; Gaxie, 1978). Les sondages doivent donc être appréhendés pour ce qu’ils sont : une technique d’enquête, parmi d’autres, d’analyse des opinions, avec ses avantages et ses limites. Cependant, il s’agit d’une des seules techniques permettant de mesurer quantitativement les opinions, et c’est à ce titre qu’il est intéressant de la comparer avec notre propre technique d’analyse des messages politiques sur Twitter (qui comporte, elle aussi, des limites).

23Une première interrogation soulevée par la constitution de cette base de données sondagières concerne le choix des baromètres à sélectionner. Doit-on retenir les résultats d’un ou plusieurs baromètres de référence, ou bien encore faire une moyenne de l’ensemble des baromètres recensés ? Cette question se pose eu égard au fait que, pour une même personnalité et une même séquence temporelle étudiée, les résultats obtenus varient sensiblement d’un baromètre à l’autre. Néanmoins, compte tenu des marges d’erreur (et de leur très difficile évaluation dans le cadre de méthodes d’échantillonnage non probabilistes), il semble vain d’accorder une trop grande importance à cette question. Davantage que la précision du pourcentage obtenu, la pente (i.e. l’évolution du pourcentage d’un mois à l’autre) est un indicateur plus pertinent à prendre en compte dans notre étude. À ce sujet, on peut constater qu’il n’existe pas de différences significatives entre baromètres.

24Une deuxième interrogation concerne l’intitulé des questions posées par ces baromètres. Leur formulation varie d’un institut à l’autre (e.g., « Êtes-vous satisfait ou mécontent de François Hollande comme président de la République ? » pour le baromètre Ifop, « Quel jugement portez-vous sur l’action de François Hollande en tant que président de la République ? » pour le baromètre Ipsos). De plus, la question posée à propos des deux hommes politiques étudiés dans la recherche, François Hollande et Nicolas Sarkozy, a changé durant la séquence étudiée (janvier 2012-décembre 2013), le premier devenant, en mai 2012, président de la République à la place du second (avant son élection, la question posée par l’Ifop pour mesurer la popularité de François Hollande était la suivante : « Quel jugement portez-vous sur l’action des personnalités politiques suivantes ? », suivie d’une liste de noms de personnalités politiques, dont le sien ; après son élection la question est devenue « Quel jugement portez-vous sur l’action de François Hollande en tant que président de la République ? »). Cependant, se demander quelle formulation permet au mieux de saisir les opinions des individus repose sur une hypothèse qu’il s’agit ici de nuancer : les enquêtés ne répondent pas nécessairement aux questions que les sondeurs croient poser. Rien ne garantit au chercheur qu’un enquêté ait compris la question posée dans les mêmes termes et avec les mêmes sous-entendus que le sondeur (Bourdieu, 1973). Rechercher la formulation « idéale » peut s’avérer une quête assez vaine. Selon nous, il convient donc, là encore, de se départir d’une conception fétichiste de l’instrument et de ne pas accorder une importance démesurée à ces changements de formulation.

25Enfin, une dernière interrogation concerne la nature des messages sélectionnés dans la base « Twitter ». Doit-on sélectionner l’ensemble des tweets annotés ou seulement ceux portant sur une cible en particulier (le bilan de l’homme politique, sa communication, sa compétence supposée, etc.) ? Un internaute publiant un message négatif ciblé sur le physique de François Hollande se déclarera-t-il pour autant « mécontent » de lui en tant que président de la République lorsqu’il sera interrogé par un institut de sondage ? Un tweet positif à propos d’une mesure prise par Nicolas Sarkozy traduit-il une opinion positive envers l’homme politique ? Pour l’heure, nous avons fait le choix d’écarter ces questionnements de l’analyse et de ne pas inclure la variable « cible » du message dans la présentation des premiers résultats exploratoires obtenus (en revanche, l’étape suivante du projet consistera clairement à questionner les significations différenciées que peut revêtir le fait de publier un message politique sur Twitter, via la prise en considération de la « cible » des messages dans l’analyse et la réalisation d’entretiens qualitatifs avec leurs auteurs).

26Dans les premiers résultats exploratoires, nous avons calculé les pourcentages de messages négatifs, neutres et positifs pour chaque entité sur les tweets publiés du premier au dernier jour de chaque mois, sans opérer donc, à ce stade, un filtrage par cible. Concernant la base « sondages », nous avons mobilisé les résultats de deux baromètres d’opinion. De janvier à avril 2012, la popularité de François Hollande a été mesurée à partir du baromètre Ipsos, puis, à partir du mois de mai 2012, du baromètre Ifop (et inversement pour Nicolas Sarkozy).

Encadré 4. Notices méthodologiques des deux baromètres de la base « sondages »

Réalisé par l’institut Ipsos, Le Baromètre de l’action politique (2012) évalue chaque mois la popularité des principaux acteurs politiques français. Pour chaque vague, l’institut interroge par téléphone un échantillon d’environ 1 000 individus, représentatif de la population française âgée de 18 ans et plus. L’échantillon est construit selon la méthode des quotas (sexe, âge, profession, catégorie d’agglomération et région). La question posée est la suivante : « Quel jugement portez-vous sur l’action des personnalités politiques suivantes ? ». Suit une déclinaison de personnalités politiques, dont François Hollande (puis, après sa défaite en 2012, Nicolas Sarkozy). Le total « Favorable » regroupe les réponses « très favorable » et « plutôt favorable », le total « Défavorable » les réponses « plutôt défavorable » et « très défavorable » ; le taux de nsp correspond à la part de personnes qui ne se prononcent pas.

Le baromètre politique de l’institut Ifop est réalisé mensuellement par téléphone auprès d’un échantillon d’environ 1 800 individus, représentatif de la population française âgée de 18 ans et plus. La représentativité de l’échantillon est là aussi assurée par la méthode des quotas (sexe, âge, profession du chef de famille) après stratification par région et catégorie d’agglomération (Ifop, 2012). La question posée est la suivante : « Êtes-vous satisfait ou mécontent de François Hollande/Nicolas Sarkozy comme président de la République ? ». Le total « Satisfaits » regroupe les réponses « très satisfaits » et « plutôt satisfaits » ; le total « Mécontents » les réponses « très mécontents » et « plutôt mécontents ».

Premiers résultats exploratoires

27Nous exposons à présent les premiers résultats obtenus. Pour commencer, il s’agit de juger de la réussite des algorithmes automatiques d’annotation, en matière de polarité des messages et des cibles, et d’en apprécier les limites. Il s’agit également de commencer à mettre en relation l’analyse des tweets et celle des baromètres par sondage, et de soulever par là même les questionnements et difficultés engendrés par cette comparaison.

Évaluation des algorithmes

28D’abord, chaque entité étudiée (Nicolas Sarkozy et François Hollande) a conduit à élaborer des algorithmes adaptés au vocabulaire employé dans les messages. Les termes utilisés par les internautes pour signifier un jugement négatif sur l’un (par exemple, nabot) ne sont pas les mêmes que sur l’autre (par exemple, flamby). Ensuite, nous avons travaillé en plusieurs lots afin d’affiner les paramètres des algorithmes. Signalons que, pour ces premiers résultats, les expérimentations ont été réalisées sur des échantillons aléatoires.

Encadré 5. Méthodologie d’évaluation des algorithmes

Les scores de réussite indiqués correspondent à une mesure appelée Macro F-Score en recherche d’information. Cette mesure compare un étiquetage réalisé par l’humain et la classification proposée par l’algorithme. Plus précisément, il s’agit d’une moyenne harmonique entre les mesures de précision (proportion des messages associés avec succès à la bonne classe par l’algorithme) et de rappel (proportion des messages de la classe retrouvés par l’algorithme). « Macro » indique qu’on calcule une moyenne non pondérée sur toutes les classes (par exemple, les polarités négative, neutre et positive) afin de ne pas biaiser le résultat en faveur de la classe majoritaire. Le score final est compris entre 0 (échec total) et 1 (réussite parfaite).

29Ainsi, deux lots de respectivement 2 611 et 2 711 tweets concernant Nicolas Sarkozy, issus de l’échantillon aléatoire, ont-ils été annotés automatiquement. Et le résultat a été évalué par un expert en science politique. Pour le premier lot, la question posée était de juger si l’annotation paraissait pertinente et la réponse était « oui » à 71 %. Pour le second lot, l’expert a annoté le message « à l’aveugle » (c’est-à-dire sans avoir connaissance de l’annotation automatique de l’algorithme) et cette annotation a été confrontée à celle réalisée automatiquement par l’algorithme. Cela permet d’obtenir un résultat présentant un biais moins important. Dans ce cas, la réussite des algorithmes a été évaluée à 59 %. Rappelons qu’une classification aléatoire selon trois modalités également réparties obtient une valeur plancher de 33 %. De manière analogue, un autre lot de 3 605 tweets au sujet de François Hollande a conduit à une évaluation positive de 62 % lorsque l’expert devait juger la pertinence de la polarité proposée par l’algorithme, un résultat légèrement supérieur à la moyenne des scores observés dans la littérature, mais néanmoins insuffisant au regard de notre problématique. En effet, introduire une marge d’erreur de près de 40 % dans l’évaluation des opinions observées sur Twitter rendrait caduque toute tentative de comparaison avec les données de sondage.

30Néanmoins, ces résultats s’améliorent nettement si l’on exclut de l’analyse la catégorie « neutre ». Toujours avec François Hollande, sur le même échantillon, le taux de messages codés négativement par les algorithmes et évalués positivement par les experts, ce que l’on appelle généralement le taux de faux négatifs, n’est que de 2,2 % : on se trompe donc très rarement quant il s’agit de repérer un message négatif. À l’inverse, le taux de messages étiquetés « positifs » par nos machines et qualifiés de négatifs par les annotateurs humains, les faux positifs, est plus important (25 %) mais, malgré tout, largement acceptable au regard des résultats les plus récents obtenus en analyse automatique des opinions. Les contre-sens sémantiques concernant la polarité des messages sont donc relativement rares. Les plus grandes difficultés concernant la catégorisation automatique de la polarité des messages portent sur la catégorie « neutre ». Dans la majorité des cas, les messages « neutres » ne sont pas des opinions mesurées, équilibrées, sur l’entité visée comme peut le laisser sous-entendre le terme (e.g. : « jsais pas si le contrat de génération de hollande est une bonne idée, effets pervers ? »), mais des messages informatifs sans opinion explicitement affirmée (e.g. : « Présidentielle, sondage exclusif Yahoo ! : Sarkozy stagne, Hollande reste en tête »). La lecture de ce dernier message concernant des résultats de sondage ne permet pas au chercheur de déterminer l’opinion personnelle de son auteur : l’usager se satisfait-il d’apprendre que « Hollande reste en tête » ?

31Si l’auteur du message a de grande chance d’avoir une opinion arrêtée sur cette question, celle-ci ne transparaît pas à travers son message, qui revêt une fonction essentiellement informative. Dans ce cas, l’intention politique des usagers est inconnue. Cependant, il arrive fréquemment que ces messages en apparence « informatifs » cachent une opinion qui n’est pas explicitement énoncée, mais dont le chercheur peut, plus ou moins facilement, comprendre la nature. L’essentiel des erreurs d’annotations des algorithmes porte sur ces cas litigieux. Beaucoup de messages qualifiés de neutres par les algorithmes ont été recodés positivement ou négativement par les experts. Par exemple, le tweet suivant : « Hollande nomme Valls pm, candidat ayant obtenu 5 % à la primaire ». Il a été codé comme « neutre » par l’algorithme et réévalué « négatif », l’expert estimant que l’auteur du message sous-entendait que le score de Manuel Valls à la primaire socialiste ne lui conférait pas la légitimité nécessaire pour représenter les intérêts des électeurs socialistes, et donc que cet utilisateur rejetait la décision de François Hollande et sans doute aussi son positionnement politique. Les erreurs les plus fréquentes concernent finalement moins la capacité des algorithmes à détecter une polarité exacte que celle à percevoir la présence d’une opinion sous-jacente dans un message en apparence « neutre » ou à caractère informatif. Les messages codés positivement ou négativement par les algorithmes peuvent donc être appréhendés comme des opinions explicitement formulées et assumées par leurs auteurs, et se différencient alors des messages neutres, au sein desquelles les opinions des utilisateurs de Twitter sont moins directement saisissables.

32Si l’on s’intéresse maintenant à la détection automatique de la cible d’un message (traite-t-il de la « personne » de l’homme politique, de questions d’« éthique » ou de son « projet » politique ?), la tâche de classification est plus difficile car il s’agit de discriminer parmi dix cibles potentielles (neuf décrites infra auxquelles s’ajoute la cible générale qu’est l’homme politique). L’évaluation réalisée par l’expert permet d’obtenir un score de réussite situé entre 32 % et 61 %, suivant l’entité étudiée ou la manière de valider (à l’aveugle ou non), ce qui le place bien au-dessus d’une classification aléatoire située à 10 %. Au total, les résultats pour les trois lots sont résumés dans le tableau 1 (ils ont été arrondis à l’entier le plus proche).

  • 16 Pour tester l’influence de la manière dont on présente le résultat calculé par l’algorithme, nous a (...)

Tableau 1. Score d’évaluation des algorithmes d’annotation16

Entité concernée et type d’évaluation

Nicolas Sarkozy (validation)

Nicolas Sarkozy (aveugle)

François Hollande (validation)

Nombre de tweets

2611

2711

3605

Classification correcte de la polarité en trois polarités (positif, neutre, négatif)

71 %

59 %

62 %

Classification correcte de la polarité en deux polarités (positif, négatif)

89 %

81 %

78 %

Classification correcte de la cible

61 %

32 %

40 %

33Les algorithmes d’annotation automatique, dont les résultats ont été jugés plutôt satisfaisants, du moins lorsqu’on se limite à la polarité binaire des messages (78 % d’annotations jugées pertinentes pour François Hollande et 89 % pour Nicolas Sarkozy), ont été appliqués sur notre corpus de 192 000 tweets. Ainsi avons-nous pu comparer les messages politiques publiés sur Twitter avec les résultats enregistrés par les baromètres d’opinion.

Comparaison des bases « sondages » et « Twitter »

34Précisons d’emblée que les premiers résultats présentent un caractère exploratoire et soulèvent un certain nombre d’interrogations sur leur interprétation. Chaque arbitrage méthodologique, même parfois le plus anodin concernant la sélection, la comparaison ou le traitement des données « Twitter » et « sondages » implique des partis pris théoriques et influence parfois sensiblement – et subrepticement – les résultats obtenus. Ces résultats doivent donc être interprétées avec prudence. La comparaison de la distribution mensuelle du taux de messages négatifs et positifs à propos de François Hollande sur Twitter (au sein de notre panel) et dans les sondages est un premier exemple des difficultés soulevées par la comparaison de ces deux jeux de données. Avant d’évoquer ces difficultés, commençons par dresser quelques constats que l’on peut dégager à la lecture de ce graphique.

Graphique 1. Évolution mensuelle (en %) des opinions émises à propos de François Hollande dans les sondages et sur Twitter (panel)

Graphique 1. Évolution mensuelle (en %) des opinions émises à propos de François Hollande dans les sondages et sur Twitter (panel)

35Le premier constat relatif à la lecture de ce graphique concerne la prédominance systématique, sur l’ensemble de la période, des messages négatifs publiés à propos de François Hollande, à la différence des sondages où l’on observe une inversion des courbes d’opinions positives et négatives. De janvier à septembre 2012 (la période juin-septembre étant qualifiée par les commentateurs du jeu politique d’« état de grâce »), François Hollande enregistre une majorité d’opinions positives, avant que la situation ne s’inverse à partir de septembre 2012. Sur Twitter, au contraire, avant comme après son élection, François Hollande suscite systématiquement une forte majorité de messages hostiles (même si l’on observe, nous le verrons par la suite, une claire rupture entre la période de campagne, où le candidat parvient à engendrer tout de même un certain nombre de messages positifs, et la période qui suit son élection, où ces messages se raréfient subitement, préfigurant, d’une certaine manière, les tendances qu’enregistreront les sondages quelques mois plus tard). Ce premier résultat a rapidement conduit à abandonner certaines de nos ambitions empiriques initiales, dont celle de mesurer l’existence de corrélations statistiques entre les deux jeux de données. En effet, le poids marginal des messages positifs publiés sur Twitter – de juin 2012 à décembre 2013 la part de tweets positifs n’évolue que de un à deux points d’un mois sur l’autre, avec un score toujours inférieur à 5 %, soit des évolutions comprises dans les marges d’erreur de nos algorithmes – rend cette volonté de comparaison statistique peu pertinente.

36Ceci étant, reste à comprendre les logiques de cette forte production de messages hostiles (et corrélativement la très faible production de messages de soutien). Une première piste consiste à interroger la sociologie différenciée des populations analysées par ces deux techniques d’enquête : d’un côté, la population des internautes qui s’expriment politiquement sur Twitter (et, parmi eux, ceux qui ont accepté de répondre à notre questionnaire) et, de l’autre, l’électorat français, ou du moins la représentation miniaturisée et partiellement déformée qu’en donnent les sondages (Lehingue, 2007). On pourrait notamment supposer que les taux élevés de messages négatifs envers François Hollande sur Twitter s’expliquent en raison d’une surreprésentation de l’électorat de droite ou d’extrême droite. Les données issues de l’enquête par questionnaire invalident cette hypothèse et montrent, au contraire, une nette surreprésentation de l’électorat sociologique et politique de la gauche. En effet, les enquêtés ont significativement plus voté pour François Hollande (34,2 %) que l’ensemble des électeurs français (28,6 %). Les électorats de droite, et plus encore d’extrême droite, sont sous-représentés dans le panel (voir tableau 2).

Tableau 2. Vote au premier tour des élections présidentielles du 22 avril 2012

Vote premier tour présidentielle 2012

Répondants au questionnaire ayant exprimé un suffrage

(n = 491)

Suffrages exprimés (source : ministère de l’intérieur)

François Hollande (Parti socialiste)

34,2 %

28,6 %

Jean-Luc Mélenchon (Front de gauche)

20,8 %

11,1 %

Nicolas Sarkozy (Union pour un mouvement populaire)

19,1 %

27,2 %

François Bayrou (Mouvement démocrate)

13,2 %

9,1 %

Éva Joly (Europe Écologie-Les Verts)

6,7 %

2,3 %

Marine Le Pen (Front national)

3,1 %

17,9 %

Nicolas Dupont-Aignan (Debout la République)

1,8 %

1,8 %

Philippe Poutou (Nouveau Parti anticapitaliste)

0,8 %

1,1 %

Jacques Cheminade (Solidarité et Progrès)

0,2 %

0,3 %

Nathalie Arthaud (Lutte ouvrière)

0,0 %

0,6 %

Total

100,0 %

100,0 %

37Étant donnée cette surreprésentation des électeurs de gauche, la très forte proportion de messages politiques hostiles envers le candidat socialiste apparaît énigmatique, voire paradoxale. Le taux de messages négatifs publiés en fonction de la proximité partisane (déclarée) des utilisateurs fournit un premier élément d’explication. Car on constate que le taux de messages négatifs envers le chef de l’État est significativement moins élevé parmi les enquêtés proches du Parti socialiste (ps) sur Twitter (45 % de janvier à avril 2012) que parmi ceux proches de l’Union pour un mouvement populaire (ump – 90 %), ou parmi les enquêtés dans leur ensemble (59 %), même si cette proportion de messages négatifs demeure très supérieure à celle enregistrée par les sondages d’opinion. Si l’ensemble des électeurs publie des messages négatifs envers François Hollande, cette tendance semble donc moins marquée parmi les électeurs socialistes (voir tableau 3).

Tableau 3. Distribution de la part d’opinions négatives envers François Hollande (en %) sur Twitter et dans les sondages (janvier 2012-décembre 2013)

 

Sondages

Twitter

Catégorie/période

janvier - avril 2012

mai - août 2012

septembre 2012 - décembre 2013

janvier - avril 2012

mai - août 2012

septembre 2012 - décembre 2013

Cadres

-

38

64

62

72

77

Employés

-

39

70

59

77

77

Électorat ps

8

4

27

45

64

70

Électorat ump

78

80

93

90

94

92

Total

39

41

66

59

67

76

38Même si la variable « proximité partisane » vient atténuer le constat établi précédemment, on peut rétorquer que la proportion de messages négatifs publiés par les électeurs de François Hollande, en particulier durant la campagne (de janvier à mai 2012), reste élevée, et donc énigmatique. En réalité, ce phénomène de surproduction de messages hostiles sur Twitter n’est pas propre au cas de François Hollande : Nicolas Sarkozy et, plus largement, l’ensemble des personnalités politiques françaises génèrent sur ce réseau social (tns, 2012) davantage de messages de rejet que de soutien. Il est nécessaire de questionner les pratiques, de nature très différente, qu’enregistrent ces deux techniques d’enquête (le sondage par questionnaire et l’analyse de polarité des messages sur Twitter). Une première différence concerne le contexte de production de l’enquête. Dans le cadre d’un échange téléphonique impersonnel, non anticipé, et qu’ils espèrent souvent le plus bref possible, les sondés sont invités à donner leur « jugement » (à la chaîne et souvent à la hâte) sur une série de personnalités politiques en se limitant à sélectionner un item parmi quatre proposés (très, assez, un peu ou pas du tout « satisfait »/« mécontent). Sur Twitter, à l’inverse, c’est de leur propre chef que les individus décident de publier des messages relatifs à l’actualité des personnalités politiques sans qu’ils n’aient été incités à le faire par un sondeur. Pour autant, cette absence d’interaction avec un enquêteur ne revient pas à dire que les messages publiés sur l’internet ne répondent à aucun stimulus social. Bien au contraire, ils s’inscrivent dans le cadre d’interactions sociales et d’échanges discursifs, parfois émotifs, et sont majoritairement publiés dans le contexte d’une consommation médiatique en train de se faire, à la suite de la lecture d’un article en ligne ou simultanément à une exposition à une émission télévisée (à ce propos, on peut se demander si analyser ces messages de façon « atomisée » à la manière des sondages a réellement un sens et ne revient pas à dénaturer et décontextualiser les verbatim collectés).

39Cette expression « collective » et « médiatisée » du politique apparaît comme une donnée importante à prendre en considération afin de comprendre la prédominance des messages négatifs exprimés à propos des personnalités politiques sur ce réseau social. Parmi les individus politisés (qui composent la très grande majorité de nos enquêtés), le rejet des personnalités politiques ne s’exprime pas, à la différence des individus des classes populaires, par un « dégoût » généralisé de la classe politique (Darras, Zambrano, 2016) et une forte abstention (Braconnier, Dormagen, 2007), mais davantage par une critique de leur participation jugée complice et cynique à la « société du spectacle » (Debord, 1967), suspectée de renforcer le rejet et le discrédit de la politique au sein de la population (Patterson, 1993). Plus largement, parmi les enquêtés, on peut observer une volonté (consciente ou non) de mettre à distance la politique institutionnelle et ses acteurs (sans toutefois s’en extraire totalement) par un recours presque systématique à l’humour, à l’ironie et au sarcasme. Ainsi un certain nombre d’usagers du réseau social présente-t-il des similitudes avec le groupe des citoyens « cyniques » dépeint par Nina Eliasoph (2010 : 197) dans son enquête ethnographique d’un club de danse country américain : pour eux, parler politique est un divertissement, un moyen d’affirmer qu’ils ne sont pas dupes du fonctionnement « réel » du jeu politique, en adoptant pour cela « un régime d’ironie et de désengagement » qu’ils essaient d’imposer à tous, « l’objet de la conversation étant d’affirmer sa non-appartenance et son désengagement, de paraître irrévérencieux, de ne prendre ni le groupe ni le monde trop au sérieux ». Néanmoins, pour d’autres enquêtés, cette mise à distance du jeu politique et de ses acteurs ne s’accompagne pas nécessairement d’un désengagement « civique » (un certain nombre d’entre eux milite dans des associations « politiques » et est activement impliqué dans la défense d’une cause). Ce qui est mis à distance est le principe de délégation politique (à un acteur ou à un parti) et le rejet de la professionnalisation de la politique (Boyadjian, 2016).

40Mais cette production de messages hostiles – et cette faible proportion de messages positifs – peuvent également s’expliquer par le fait que, sur Twitter, à la différence des sondages d’opinion, l’enquête n’enregistre pas uniquement des opinions politiques « citoyennes » : une proportion non négligeable des messages collectés sur le réseau social est également le produit d’une activité militante (plus ou moins) organisée. Environ 30 % des membres de notre panel sont (ou ont été) des militants de partis politiques. Presque imperceptible dans les sondages d’opinion en raison de leur poids marginal dans la population électorale, les prises de position de ces militants bénéficient sur Twitter d’une visibilité sans commune mesure. Dans les périodes de campagne électorale, ces productions militantes sont encouragées, organisées et orchestrées par les appareils partisans (Théviot, 2014), de façon quotidienne (chaque jour, les militants sont invités à relayer sur les médias sociaux certains messages ou éléments de langage) ou plus événementielle, notamment lors de meetings électoraux ou dans le cadre de « riposte parties » (i.e. des militants se réunissant durant des débats télévisés avec pour objectif de publier sur les réseaux sociaux le plus massivement possible des messages de soutien envers leur candidat). Cette activité militante organisée permet sans doute d’expliquer un deuxième phénomène mis en évidence par le graphique ci-dessus : la quasi-disparition des messages de soutien envers François Hollande à partir du mois de juin 2012. En effet, sur le réseau social, deux séquences peuvent être dissociées. Avant son élection, François Hollande parvenait à engendrer un nombre non négligeable, bien que systématiquement minoritaire nous l’avons dit, de messages positifs (6 à 12 % des messages publiés à son sujet). Dès le mois de juin, les messages positifs envers le chef de l’État deviennent presque inexistants (1 à 4 % des tweets publiés). En revanche, dans les sondages, la diminution des opinions positives à propos de François Hollande est moins soudaine et moins brutale. Eu égard au travail militant de production de messages de soutien durant la campagne électorale, on peut alors supposer que, avec la fin de la campagne (et la dissolution de l’équipe de campagne du candidat), les militants socialistes aient cessé d’être sollicités et mobilisés pour soutenir leur candidat sur le réseau. La disparition des tweets positifs à l’issue de l’élection traduirait donc moins une désillusion des électeurs de François Hollande qu’une démobilisation des militants du ps.

41Enfin, une dernière hypothèse peut sans doute être mobilisée afin de comprendre ces différences marquées entre les sondages et l’analyse de polarité sur Twitter, notamment concernant cette disparition (relative) des messages de soutien envers François Hollande à la suite de son élection. On peut supposer que les individus qui ont voté pour le candidat socialiste en 2012 (et qui, un an après, continuent de répondre aux sondeurs, lorsqu’ils sont interrogés, qu’ils sont « plutôt favorables » à l’action du chef de l’État) aient, après son élection, cessé de produire des messages à son sujet. On a pu observer ailleurs (Boyadjian, 2014) que l’activité de production de messages politiques sur Twitter était très épisodique et fortement dépendante du niveau de politisation de l’actualité. Il est alors probable que, en des temps de faible politisation (notamment après la séquence électorale très intense du printemps 2012) et en l’absence d’agents mobilisateurs ou de sondeurs, le jeu politique (et ses acteurs) cesse d’être une préoccupation quotidienne pour nombre d’enquêtés, même les plus politisés. Par ailleurs, deux politistes américains, Christopher Anderson et Aida Paskevicute (2005) ont démontré que les citoyens parlent plus fréquemment de politique lorsqu’ils ne partagent pas les mêmes convictions que le gouvernement en place. On pourrait alors supposer que, en période de faible politisation, et sous un gouvernement qu’ils ont contribué à élire, les citoyens de gauche auraient d’autres préoccupations que celle de parler de politique sur Twitter.

42Cependant, cette hypothèse ne peut trouver de vérification empirique rigoureuse en l’état actuel de notre dispositif ; et ce, pour deux raisons. Premièrement, parce que la mesure de la polarité des messages n’a pas été effectuée en valeur absolue, mais sous forme de pourcentage, et ne tient ainsi pas compte de la variation (particulièrement sensible d’un mois sur l’autre) du nombre total de messages politiques publiés. Afin de comparer nos données « Twitter » avec les résultats des baromètres d’opinion (qui reposent sur le postulat implicite selon lequel l’attention accordée aux personnalités politiques est stable dans le temps), nous avons choisi de privilégier des données relatives, sous formes de pourcentage. Or, ces taux de tonalité ne permettent pas d’appréhender les « silences » des usagers, ou, autrement dit, les niveaux différenciés de mobilisation des différents électorats sur le réseau. Or, tout porte à croire que le taux de publication politique des usagers est un indice à prendre au sérieux pour comprendre les mouvements d’opinion sur le réseau social. En effet, on peut supposer qu’un volume tout à fait inhabituel de messages publiés sur un homme politique (que ces messages soient négatifs ou positifs) est révélateur d’un « mouvement » dans l’opinion (Diaz et al., 2016). Deuxièmement, tenir compte de ces « silences » nécessite sans nul doute de se départir d’une analyse « panélisée » du réseau social. Car la population-mère (i.e. la population totale des inscrits au réseau social Twitter) est en constante expansion et recomposition sociologique (Twitter, 2016). Or, le panel conduit à figer l’analyse dans le temps, en se focalisant sur la production d’un échantillon (imparfaitement) représentatif de la population des inscrits à un moment t (ici, le mois de mars 2012). À l’inverse de la population électorale, la population des internautes politiquement mobilisés évolue (et se recompose socialement et politiquement) très rapidement. Proposant une analyse dynamique et sociodémographique de Twitter, Fernando Diaz et ses collègues (2016) en arrivent ainsi à une conclusion similaire : le nombre et le profil sociodémographique des usagers s’exprimant sur le réseau social ne sont pas stables dans le temps et évoluent en permanence, et rendent, de ce fait, très difficile toute tentative de modélisation et de prédiction.

Conclusion

43Nous avons exposé une démarche de recherche dont l’objectif est de comparer, à partir d’un même objet d’étude, les résultats obtenus via deux techniques de mesure des « opinions » : le sondage probabiliste, d’une part, et l’analyse de la tonalité des messages publiés sur Twitter, d’autre part. À l’instar des recherches les plus récentes (Schober et al., 2016), le dispositif d’enquête vise à situer socialement les données produites par les algorithmes de détection automatique de tonalité, afin de mieux comparer les résultats obtenus à ceux des sondages, et à associer des chercheurs en shs à la phase d’élaboration des algorithmes afin de tenir compte de la spécificité du matériau politique étudié. Il ressort des premiers résultats exploratoires que notre dispositif de recherche pose à ce stade davantage de questions qu’il ne dégage de certitudes. On peut évoquer quatre grandes questions posées par cette comparaison :

  1. Raisonner en termes de pourcentage ne conduit-il pas à négliger une dimension essentielle de l’analyse des messages politiques sur Twitter, à savoir la forte variation dans le temps de l’intérêt accordé – et surtout exprimé – quant au jeu politique et ses acteurs ? Mesurer le « silence » des usagers et en appréhender la signification sociale constituera un enjeu majeur de nos prochaines recherches.

  2. Peut-on analyser sur le temps long l’activité d’un échantillon d’usagers sélectionné en un temps t (logique de panel) alors même que la population-mère dont il est extrait évolue et se recompose en permanence (Diaz, 2016) ?

  3. Est-il analytiquement pertinent de réduire les tweets politiques à des opinions politiques ? À l’évidence, la réponse apportée à cette question est négative. Publier des messages en rapport avec la politique et ses acteurs revêt bien d’autres fonctions et significations sociales que simplement exprimer une opinion : échanger des contenus médiatiques et rendre visible sa propre consommation de biens informationnels, mettre à distance la politique en faisant preuve d’humour ou de sarcasme, alimenter des discussions et nouer des contacts, exprimer des goûts et des dégoûts sociaux, etc. Questionner ce que « parler politique en ligne veut dire » nécessite de recourir à des approches plus qualitatives et d’inscrire cette activité de publication de messages dans une économie plus large des pratiques symboliques, en ligne comme hors ligne (Wojcik, Greffet, 2008).

  4. Enfin, une dernière interrogation, directement liée à celle qui précède, consiste à se demander dans quelle mesure il est pertinent d’analyser ces messages de façon isolée, sans tenir compte des échanges discursifs dans lesquels ils s’insèrent et qui leur donnent sens ? Bien que la classification réalisée dans le cadre du projet prenne en compte l’auteur des messages, il faudrait aller plus loin en considérant les réseaux dans lesquels il s’inscrit. On peut alors se demander, pour conclure, si l’« adn » de notre dispositif méthodologique n’est pas encore prisonnier, dans une certaine mesure, de l’appareillage mental et conceptuel des sondages probabilistes.

Haut de page

Bibliographie

Agarwal A., Xie B., Vovsha I., Rambow O., Passonneau R., 2011, « Sentiment Analysis of Twitter Data », pp. 30-38, in: Proceedings of the Workshop on Languages in Social Media, Portland, Association for Computational Linguistics.

Anderson C. J., Paskevicute A., 2005, « Macro-Politics and Micro Behavior: Mainstream Politics and the Frequency of Political Discussion in Contemporary Democracies », pp. 228-250, in: Zuckerman A., ed., The Social Logic of Politics. Personal Networks as Contexts for Political Behaviour, Philadelphie, Temple University Press.

Asur S., Huberman B. A., 2010, « Predicting the Future with Social Media », pp. 492-499, in: Hoeber O., Li Y., Hunag X. J., eds, Proceedings of the 2010 ieee/wic/acm International Conference on Web Intelligence and Intelligent Agent Technology, vol. 1, Washington, Institute of Electrical and Electronics Engineers .

Benamara F., Moriceau V., Mathieu Y. Y., 2014, « Catégorisation sémantique fine des expressions d’opinion pour la détection de consensus », pp. 43-51, in : deft2014. Actes du dixième Défi Fouille de Textes, Marseille, 1er juil. Accès : https://deft.limsi.fr/actes/actes_deft2014.pdf.

Blondiaux L., 1998, La Fabrique de l’opinion. Une histoire sociale des sondages, Paris, Éd. Le Seuil.

Bollen J., Mao H., Zeng X.-J., 2010, « Twitter mood predicts the stock market », Journal of Computational Science, 2 (1), pp. 1-8.

Boullier D., Lohard A., 2012, Opinion mining et Sentiment analysis. Méthodes et outils, Marseille, OpenEdition Press.

Bourdieu P., 1973, « L’opinion publique n’existe pas », Les Temps modernes, 318, pp. 1292-1309.

Boyadjian J., 2014, « Twitter, un nouveau baromètre de l’opinion publique ? », Participations. Revue de sciences sociales sur la démocratie et la citoyenneté, 8, pp. 55-74.

Boyadjian J., 2016, Analyser les opinions politiques sur internet. Enjeux théoriques et défis méthodologiques, Paris, Dalloz

Boyd D., Crawford K., 2012, « Critical Questions for Big Data », Information, Communication & Society, 15 (6), pp. 62-79.

Braconnier C., Dormagen J.-Y., 2007, La Démocratie de l’abstention. Aux origines de la démobilisation en milieu populaire, Paris, Gallimard.

Cardon D., Perrier V. J., Le Cam F., Pélissier N., 2006, « Présentation », Réseaux. Communication,. technologie, société, 137 (3), pp. 9-25.

Couper M. P., 2013, « Is the Sky Falling? New Technology, Changing Media, and the Future of Surveys », Survey Research Methods, 7 (3), pp. 145-156.

Darras E., Zambrano S. V., 2016, « Se politiser avec et contre les médias. Bilan modeste mais perspectives stimulantes », pp. 273-290, in : Buton F., Lehingue P., Mariot N., Rozier S., dirs, L’Ordinaire du politique. Enquêtes sur les rapports profanes au politique, Villeneuve d’Ascq, Presses universitaires du Septentrion.

Debord G., 1967, La Société du spectacle, Paris, Gallimard.

Deroin V., 2013, Les Ménages et les technologies de l’information et de la communication (tic) en France et en Europe en 2012. Accès : http://www.culturecommunication.gouv.fr/Thematiques/Etudes-et-statistiques/Publications/Collections-de-synthese/Culture-chiffres-2007-2017/Les-menages-et-les-technologies-de-l-information-et-de-la-communication-TIC-en-France-et-en-Europe-en-2012-CC-2013-2. Consulté le 10/02/2017.

Diaz F., Gamon M., Hofman J. M., Kıcıman E., Rothschild D., 2016, « Online and Social Media Data as an Imperfect Continuous Panel Survey ». Accès : http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0145406.

Eliasoph N., 2010, L’Évitement du politique. Comment les Américains produisent l’apathie dans la vie quotidienne, Paris, Economica.

Gaxie D., 1978, Le Cens caché. Inégalités culturelles et ségrégation politique, Paris, Éd. Le Seuil.

Gayo-Avello D., 2013, « A meta-analysis of state-of-the-art electoral prediction from Twitter data », Social Science Computer Review, 31 (6), pp. 649-679.

Institut français d’opinion publique, 2012, Baromètre politique, Paris, Institut français d’opinion publique.

Institut français d’opinion publique, 2013, Baromètre politique, Paris, Institut français d’opinion publique.

Institut français d’opinion publique, 2014, Observatoire des réseaux sociaux, Paris, Institut français d’opinion publique.

Ipsos, 2012, Le Baromètre de l’action politique, Paris, Ipsos.

Ipsos, 2013, Le Baromètre de l’action politique, Paris, Ipsos.

Jungherr A., 2014, « Twitter in Politics: A Comprehensive Literature Review », Social Science Research Network. Accès : http://ssrn.com/abstract=2402443.

Jungherr A., Jürgens P., Schoen H., 2011, « Why the Pirate Party Won the German Election of 2009 or the Trouble With Predictions: A Response to Tumasjan, A., Sprenger, T. O., Sander, P. G., & Welpe, I. M. “Predicting Elections With 140 Characters Reveal About Political Sentiment” », Social Science Computer Review, 30 (2), pp. 229-234.

Khan F. H., Bashir S., Qamar U., 2013, « tom: Twitter opinion mining framework using hybrid classification scheme », Decision Support Systems, 57, pp. 245-257.

Kim A., Murphy J., Richards A., Hansen H., Howell R., Haney C., 2014, « Can Tweets Replace Polls? A us Health-Care Reform Case Study », pp. 61-86, in: Hill C. A., Dean E., Murphy J., Social Media, Sociality, and Survey Research, Hoboken, J. Wiley.

Lehingue P., 2007, Subunda. Coups de sonde dans l’océan des sondages, Broissieux, Éd. du Croquant.

Liu B., 2012, « Sentiment Analysis and Opinion Mining », Synthesis Lectures on Human Language Technologies, 5 (1), pp. 1-167.

Livne A., Simmons M. P., Adar E., Adamic L. A., 2011, « The Party is over Here: Structure and Content in the 2010 Election », pp. 201-208, in: Proceedings of the Fifth International Conference on Weblogs and Social Media, Menlo Park, Association for the Advancement of Artificial Intelligence Press. Accès : https://www.aaai.org/ocs/index.php/ICWSM/ICWSM11/paper/view/2852.

McCombs M. E., Shaw D. L., 1972, « The Agenda-Setting Function of Mass Media », The Public Opinion Quarterly, 36, pp. 176-187.

Martinez-Camara E., Martin-Valdivia M. T., Urena-Lopez L. A., Montejo-Raez A., 2012, « Sentiment Analysis in Twitter », Natural Language Engineering, 20 (1), pp. 1-28.

Mayer-Schönberger V., Cukier K., 2013, Big data. A Revolution that will transform How we live, work, and think, E. Dolan/Houghton Mifflin Harcourt.

Neuman W. R., Guggenheim L., Jang S. M., Bae S. Y., 2014, « The Dynamics of Public Attention: Agenda-Setting Theory meets Big Data », Journal of Communication, 64, pp. 193-214.

O’Connor B., Balasubramanyan R., Routledge B. R., Smith N. A., 2010, « From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series », pp. 122-129, in: Proceedings of the Fourth International Conference on Weblogs and Social Media, Menlo Park, Association for the Advancement of Artificial Intelligence Press. Accès : https://www.aaai.org/ocs/index.php/ICWSM/ICWSM10/paper/view/1536.

Patterson T., 1993, Out of Order, New York, Knopf.

Schober M. F., Pasek J., Guggenheim L., Lampe C., Conrad F. G., 2016, « Research Synthesis, Social Media Analyses for Social Measurement », The Public Opinion Quarterly, 80 (1), pp. 180-211.

Smith T. W., 2013, « Survey-Research Paradigms Old and New », International Journal of Public Opinion Research, 25, pp. 218-29.

Théviot A., 2014, « Twitter en regardant la télévision : une campagne transmédias interactive ? Analyse comparée des stratégies numériques au Parti Socialiste et à l’Union pour un mouvement populaire lors des ripostes-party », Télévision, 5, pp. 95-112.

tns Sofres, 2012, Twittoscope, Paris, tns Sofres.

Twitter, 2016, #WhoUsesTwitter. Accès : https://g.twimg.com/Infographie_WhoUsesTwitter_0.pdf. Consulté le 10/02/2017.

Velcin J., Kim Y.-M., Brun C., Dormagen J.-Y., Sanjuan E., Khouas L., Peradotto A., Bonnevay S., Roux C., Boyadjian J., Molina A., Neihouser M., 2014, « Investigating the Image of Entities in Social Media: Dataset Design and First Results », pp. 1652-1656, in: Proceedings of the 9th International Conference on Language Resources and Evaluation (lrec-2014), vol. 2, Stroudsburgh, Association for Computational Linguistics.

Wojcik S., Greffet F., 2008, « Parler politique en ligne. Une revue des travaux français et anglo-saxons », Réseaux. Communication,. technologie, société, 150 (4), pp. 19-50.

Zaller J., 1992, The Nature and Origins of Mass Opinion, Cambridge, Cambridge University Press.

Haut de page

Notes

1 En 2012, 36 % des internautes français âgés de 16 à 74 ans déclaraient publier du contenu sur le web (Deroin, 2013 : 4).

2 À ce stade de l’analyse, nous pouvons nous fonder sur la définition courante de cette notion que donne, par exemple, le Larousse : « Faveur dont jouit quelqu’un au sein d’un groupe ».

3 Le projet ImagiWeb a été financé par l’anr entre 1er avril 2012 et le 30 septembre 2015 (anr-2012-cord-002-01).

4 L’attrait des chercheurs pour Twitter s’explique sans doute par une plus grande facilité d’accès aux données (à la différence de Facebook, la grande majorité des comptes ne sont pas « verrouillés ») et par la taille standardisée des messages, limitée à 140 caractères.

5 Dans le présent article, sauf mention contraire, les citations issues de travaux anglophones sont traduites par nos soins : « Reaching for a random sample in the age of big data is like clutching at a horse whip in the era of the motor car ».

6 L’apprentissage automatique ou artificiel (machine learning en anglais) regroupe des techniques issues de l’intelligence artificielle et vise à imiter le comportement humain afin de résoudre des problèmes complexes tels la reconnaissance de visage ou la traduction d’une langue vers une autre.

7 Les recherches questionnant l’existence de relations entre les phénomènes online et offline ont parfois été conduites en collaboration avec des chercheurs en sciences économiques (O’Connor et al., 2010), en sciences de l’information et de la communication (Livne et al., 2011) et, plus rarement, en science politique (Jungherr et al., 2011). En revanche, les travaux français de science politique consacrés au big data restent relativement rares.

8 Un algorithme est une suite d’opérations (instructions) réalisées par un programme informatique pour résoudre un problème donné.

9 En raison d’une panne inexpliquée de notre logiciel, aucun tweet n’a pu être collecté durant les mois de janvier et février 2013.

10 Dans la plupart des baromètres sondagiers, la popularité des hommes politiques est testée une fois par mois.

11 Les algorithmes d’analyse automatique utilisent souvent des listes de mots classés a priori comme positifs (par exemple « beau », « efficace ») ou négatifs (e.g. « inutile », « mauvais »).

12 L’application web utilisée peut être librement téléchargée. Accès : http://dev.termwatch.es/~molina/imagiweb2/static/systeme_description.html.

13 Les machines à vecteur support (ou Support Vector Machines en anglais) se sont révélées être des techniques de classification automatique très efficaces.

14 La régression logistique est une technique classique de classification automatique issue de l’analyse statistique. La régularisation permet de contrôler les poids attribués aux variables, ce qui conduit souvent à de meilleurs résultats lorsqu’on cherche à classer de nouvelles données (capacités de généralisation).

15 La mesure tfxidf (de l’anglais Term Frequency versus Inverse Document Frequency) estime le caractère discriminant d’un terme à partir du moment où il apparaît fréquemment dans un message mais, au contraire, peu dans l’ensemble du corpus.

16 Pour tester l’influence de la manière dont on présente le résultat calculé par l’algorithme, nous avons choisi un unique cas d’étude (celui de Nicolas Sarkozy). C’est pourquoi nous ne pouvons pas présenter de manière « symétrique », une colonne intitulée « François Hollande (aveugle) ».

Haut de page

Table des illustrations

Titre Graphique 1. Évolution mensuelle (en %) des opinions émises à propos de François Hollande dans les sondages et sur Twitter (panel)
URL http://journals.openedition.org/questionsdecommunication/docannexe/image/11078/img-1.jpg
Fichier image/jpeg, 284k
Haut de page

Pour citer cet article

Référence papier

Julien Boyadjian et Julien Velcin, « L’analyse quantitative des médias sociaux, une alternative aux enquêtes déclaratives ? »Questions de communication, 31 | 2017, 111-135.

Référence électronique

Julien Boyadjian et Julien Velcin, « L’analyse quantitative des médias sociaux, une alternative aux enquêtes déclaratives ? »Questions de communication [En ligne], 31 | 2017, mis en ligne le 01 septembre 2019, consulté le 30 mars 2024. URL : http://journals.openedition.org/questionsdecommunication/11078 ; DOI : https://doi.org/10.4000/questionsdecommunication.11078

Haut de page

Auteurs

Julien Boyadjian

Centre d’études et de recherches administratives, politiques et sociales
Université Lille 2
Centre national de la recherche scientifique
Sciences Po Lille
F-59024
julien.boyadjian[at]hotmail.fr

Julien Velcin

Entrepôts, représentation et ingénierie des connaissances
Université de Lyon
F-69676
julien.velcin[at]univ-lyon2.fr

Haut de page

Droits d’auteur

CC-BY-NC-ND-4.0

Le texte seul est utilisable sous licence CC BY-NC-ND 4.0. Les autres éléments (illustrations, fichiers annexes importés) sont « Tous droits réservés », sauf mention contraire.

Haut de page
Rechercher dans OpenEdition Search

Vous allez être redirigé vers OpenEdition Search