Decoding strategies for syntax-based statistical machine translation

Braune, Fabienne

Bitte benutzen Sie diese Kennung, um auf die Ressource zu verweisen: http://dx.doi.org/10.18419/opus-3636

Autor(en):	Braune, Fabienne
Titel:	Decoding strategies for syntax-based statistical machine translation
Sonstige Titel:	Dekodierstrategien für syntaxbasierte statistische maschinelle Übersetzung
Erscheinungsdatum:	2015
Dokumentart:	Dissertation
URI:	http://nbn-resolving.de/urn:nbn:de:bsz:93-opus-104848 http://elib.uni-stuttgart.de/handle/11682/3653 http://dx.doi.org/10.18419/opus-3636
Zusammenfassung:	Provided with a sentence in an input language, a human translator produces a sentence in the desired target language. The advances in artificial intelligence in the 1950s led to the idea of using machines instead of humans to generate translations. Based on this idea, the field of Machine Translation (MT) was created. The first MT systems aimed to map input text into the target translation through the application of hand-crafted rules. While this approach worked well for specific language-pairs on restricted fields, it was hardly extendable to new languages and domains because of the huge amount of human effort necessary to create new translation rules. The increase of computational power enabled Statistical Machine Translation (SMT) in the late 1980s, which addressed this problem by learning translation units automatically from large text collections. Statistical machine translation can be divided into several paradigms. Early systems modeled translation between words while later work extended these to sequences of words called phrases. A common point between word and phrase-based SMT is that the translation process takes place sequentially, which is not well suited to translate between languages where words need to be reordered over (potentially) long distances. Such reorderings led to the implementation of SMT systems based on formalisms that allow to translate recursively instead of sequentially. In these systems, called syntax-based systems, the translation units are modeled with formal grammar productions and translation is performed by assembling the productions of these grammars. This thesis contributes to the field of syntax-based SMT in two ways : (i) the applicability of a new grammar formalism is tested by building the first SMT system based on the local local Multi Bottom-Up Tree Transducer (l-MBOT) (ii) new ways to integrate linguistic annotations in the translation model (instead of the grammar rules) of syntax-based systems are developed. Menschliche Übersetzer überführen Sätze von einer Quellsprache in die gewünschte Zielsprache. Fortschritte in Künstlicher Intelligenz in den 1950er Jahren haben dazu geführt, dass ebenfalls Computer für die Übersetzung eingesetzt wurden. Dies ist die Geburtsstunde der Maschinellen Übersetzung. Die ersten Systeme basierten auf handgeschriebenen Regeln, die Texte aus einer Sprache auf eine andere abbilden können. Dieser Ansatz eignet sich zwar für einige Sprachpaare in gewissen Anwendungsbereichen, kann aber nicht ohne sehr kostspieliges Regelschreiben für neue Sprachen oder Anwendungen angepasst werden. Die Verfügbarkeit höherer Rechenleistung hat in den späten 1980er Jahren dazu geführt, dass sich Statistische Maschinelle Übersetzung etablieren konnte. Derartige Systeme lernen die nötigen Übersetzungseinheiten automatisch aus großen Textsammlungen. Statistische Übersetzungssysteme können in verschiedene Paradigmen eingeteilt werden. Die ersten Systeme modellierten nur die Übersetzung von einzelnen Wörtern. Spätere Systeme erweiterten dies zu Wortsequenzen auch Phrasen genannt. Eine Gemeinsamkeit beider Ansätze besteht darin, dass die Übersetzung sequentiell erfolgt. Dieser Ansatz ist nicht sehr praktikabel, falls Wörter im Rahmen der Übersetzung über eine lange Distanz im Satz neu geordnet werden müssen. Um diesem Problem entgegenzuwirken, wurde ein neues Paradigma eingeführt, welches die Übersetzung rekursiv statt sequentiell durchführt. Diese sogenannten syntax-basierten Systeme basieren auf Übersetzungseinheiten, die durch Produktionen einer formalen Grammatik dargestellt werden. Diese Arbeit trägt zu dem Gebiet der syntax-basierten maschinellen Übersetzung in zweieierlei Hinsicht bei: (i) ein neuer Grammatikformalismus basierend auf lokalen und aufsteigenden Mehrfachbaumübersetzern wurde implementiert und getestet (ii) es wurde untersucht, wie linguistische Annotationen im Übersetzungsmodell verankert werden können, anstatt sie über die Verarbeitung der Übersetzungsregeln zu betrachten.
Enthalten in den Sammlungen:	05 Fakultät Informatik, Elektrotechnik und Informationstechnik

Dateien zu dieser Ressource:

Datei	Beschreibung	Größe	Format
diss.pdf		732,04 kB	Adobe PDF	Öffnen/Anzeigen

Zur Langanzeige

Alle Ressourcen in diesem Repositorium sind urheberrechtlich geschützt.

Universität Stuttgart

OPUS - Online Publikationen der Universität Stuttgart