Dissertation Project: Bettina Schrader

Exploiting linguistic and statistical knowledge for a text alignment system

In text alignment, two or more texts in as many different languages are aligned, so that the elements of the text, which are usually understood as being either sentences or words, are set into correspondence so that these tokens mean the same, i.e. they are translations of each other. These translation pairs can be used by other applications, for example for generating a dictionary.

Several different methods have been developed to align texts on the sentence or on the word level. However, the problem of text alignment is far from being solved. Aligning sentences works best if different strategies are combined, and the quality of word alignment suffers from characteristics of the strategies used: they depend heavily on statistical models that do not capture linguistic structure adequately: in word alignment, sentences are often taken wrongly as internally unstructured bags of words. These shortcomings have been noted and addressed before. However, the fundamental statistical models have rarely been adapted.

The aim of my PhD project is to develop a new alignment method that can exploit structured information in that it uses diverse levels of linguistic descriptions for aligning sub-sentence elements like phrases and words. These levels include lemma and word category information, or information on syntactic constituency. Additionally, this method is being designed to compute alignments driven by both linguistically motivated rules and statistically derived similarities between words.

Advisors: PD Dr. Helmar Gust, Prof. Dr. Peter Bosch, in the Graduate Programme "Cognitive Architectures: Rules and Patterns"
Schedule: Started in October 2003, estimated duration three years

Textalignment mittels linguistischer und statistischer Information

In Textalignment werden zwei oder mehr Texte in ebensovielen Sprachen aligniert, indem ihre Elemente, normalerweise Sätze und Wörter, in Beziehung zueinander gesetzt werden. Die entstehenden Elementpaare stehen dabei in einer Übersetzungsrelation zueinander. Nach dem Alignment können diese Übersetzungspaare z.B. für die Erstellung eines Wörterbuchs genutzt werden.

Es sind schon diverse Methoden veröffentlicht worden, um Texte auf der Ebene der Sätze oder auf Wortebene zu alignieren. Trotzdem verbleiben Schwierigkeiten. Satzalignment funktioniert nur dann am besten, wenn verschiedene Strategien miteinander kombiniert werden, und die Qualität des Wortalignments leidet unter der Art der eingesetzten Verfahren: Sie benutzen fast ausschließlich statistische Modelle, die jedoch linguistische Strukturen nicht angemessen berücksichtigen. Im Wortalignment wird typischerweise davon ausgegangen, daß ein Satz eine unstrukturierte Menge von Wörtern ist. Die Mängel der statistischen Modelle sind bekannt und es wurden auch schon Verbesserungen vorgenommen, jedoch meist ohne die zugrunde liegenden statistischen Modelle zu ändern.

In meiner Doktorarbeit entwickle ich ein neues Alignmentverfahren, das explizit strukturierte Informationen ausnutzen kann: Um zwei Texte miteinander zu alignieren, nutzt es mehrere linguistische Beschreibungsebenen, wie Informationen über Lemmas und Wortarten, oder auch syntaktische Information. Außerdem werden Zuordnungen sowohl anhand statistischer Ähnlichkeit zwischen Wörtern oder Wortgruppen getroffen als auch anhand linguistisch motivierter Regeln.

Betreuer:PD Dr. Helmar Gust, Prof. Dr. Peter Bosch, im Rahmen des Graduiertenprogramms "Kognitive Architekturen: Regeln und Muster"
Zeitplan: Begonnen im Oktober 2003, Laufzeit drei Jahre

Publications associated with this project:

see Papers