Published April 15, 2021 | Version v1
Conference paper Open

Atténuer les erreurs de numérisation dans la reconnaissance d'entités nommées pour les documents historiques

  • 1. Laboratoire L3i, Université de La Rochelle, France
  • 2. IRIT, Université de Toulouse, France

Description

Cet article aborde la reconnaissance d'entités nommées (NER) appliquée aux textes historiques obtenus à partir du traitement d'images numériques de journaux à l'aide de techniques de reconnaissance optique de caractères (OCR). Nous soutenons que le principal défi pour cette tâche est que le processus OCR produit des textes contenant entre autres des fautes d'orthographe et des erreurs de syntaxes. De plus, des variations sémantiques peuvent être présentes dans les documents anciens, ce qui a un impact sur les performances de la reconnaissance d'entités nommées. Nous menons une évaluation comparative à l'état de l'art de deux ensembles de données historiques en allemand et en français, et nous proposons un modèle basé sur une pile hiérarchique de couches Transformer pour aborder la reconnaissance d'entités nommées dans des données historiques. Nos résultats montrent que le modèle proposé améliore clairement les résultats sur les deux ensembles de données.

Files

CORIA2021-attenuer-erreur-numerisation-NER.pdf

Files (104.8 kB)

Name Size Download all
md5:bb884c2a8c0fa5106f5a0a2d93201622
104.8 kB Preview Download

Additional details

Funding

NewsEye – NewsEye: A Digital Investigator for Historical Newspapers 770299
European Commission
EMBEDDIA – Cross-Lingual Embeddings for Less-Represented Languages in European News Media 825153
European Commission