Atténuer les erreurs de numérisation dans la reconnaissance d'entités nommées pour les documents historiques

doi:10.5281/zenodo.4734435

Published April 15, 2021 | Version v1

Conference paper Open

Atténuer les erreurs de numérisation dans la reconnaissance d'entités nommées pour les documents historiques

1. Laboratoire L3i, Université de La Rochelle, France
2. IRIT, Université de Toulouse, France

Cet article aborde la reconnaissance d'entités nommées (NER) appliquée aux textes historiques obtenus à partir du traitement d'images numériques de journaux à l'aide de techniques de reconnaissance optique de caractères (OCR). Nous soutenons que le principal défi pour cette tâche est que le processus OCR produit des textes contenant entre autres des fautes d'orthographe et des erreurs de syntaxes. De plus, des variations sémantiques peuvent être présentes dans les documents anciens, ce qui a un impact sur les performances de la reconnaissance d'entités nommées. Nous menons une évaluation comparative à l'état de l'art de deux ensembles de données historiques en allemand et en français, et nous proposons un modèle basé sur une pile hiérarchique de couches Transformer pour aborder la reconnaissance d'entités nommées dans des données historiques. Nos résultats montrent que le modèle proposé améliore clairement les résultats sur les deux ensembles de données.

Files

CORIA2021-attenuer-erreur-numerisation-NER.pdf

Files (104.8 kB)

Name	Size	Download all
CORIA2021-attenuer-erreur-numerisation-NER.pdf md5:bb884c2a8c0fa5106f5a0a2d93201622	104.8 kB	Preview Download

Additional details

NewsEye – NewsEye: A Digital Investigator for Historical Newspapers 770299: European Commission
EMBEDDIA – Cross-Lingual Embeddings for Less-Represented Languages in European News Media 825153: European Commission

	All versions	This version
Views	41	41
Downloads	31	31
Data volume	3.4 MB	3.4 MB

Atténuer les erreurs de numérisation dans la reconnaissance d'entités nommées pour les documents historiques

Creators

Description

Files

CORIA2021-attenuer-erreur-numerisation-NER.pdf

Files (104.8 kB)

Additional details

Funding