Improving Arabic Diacritization by Learning to Diacritize and Translate

Thompson, Brian; Alshehri, Ali

Computer Science > Computation and Language

arXiv:2109.14150 (cs)

[Submitted on 29 Sep 2021]

Title:Improving Arabic Diacritization by Learning to Diacritize and Translate

Authors:Brian Thompson, Ali Alshehri

View PDF

Abstract:We propose a novel multitask learning method for diacritization which trains a model to both diacritize and translate. Our method addresses data sparsity by exploiting large, readily available bitext corpora. Furthermore, translation requires implicit linguistic and semantic knowledge, which is helpful for resolving ambiguities in the diacritization task. We apply our method to the Penn Arabic Treebank and report a new state-of-the-art word error rate of 4.79%. We also conduct manual and automatic analysis to better understand our method and highlight some of the remaining challenges in diacritization.

Subjects:	Computation and Language (cs.CL)
Cite as:	arXiv:2109.14150 [cs.CL]
	(or arXiv:2109.14150v1 [cs.CL] for this version)
	https://doi.org/10.48550/arXiv.2109.14150

Submission history

From: Brian Thompson [view email]
[v1] Wed, 29 Sep 2021 02:36:06 UTC (189 KB)

Full-text links:

Access Paper:

view license

Current browse context:

cs.CL

< prev | next >

new | recent | 2109

Change to browse by:

References & Citations

DBLP - CS Bibliography

listing | bibtex

Brian Thompson

export BibTeX citation

Computer Science > Computation and Language

Title:Improving Arabic Diacritization by Learning to Diacritize and Translate

Submission history

Access Paper:

References & Citations

DBLP - CS Bibliography

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computation and Language

Title:Improving Arabic Diacritization by Learning to Diacritize and Translate

Submission history

Access Paper:

References & Citations

DBLP - CS Bibliography

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators