In
Several different methods have been developed to align texts on the sentence
or on the word level. However, the problem of text alignment is far from being
solved. Aligning sentences works best if different strategies are
combined, and the quality of word alignment suffers from characteristics of
the strategies used: they depend heavily on statistical models that
do not capture linguistic structure adequately: in word
alignment, sentences are often taken wrongly as internally unstructured
The aim of my PhD project is to develop a new alignment method that can exploit structured information in that it uses diverse levels of linguistic descriptions for aligning sub-sentence elements like phrases and words. These levels include lemma and word category information, or information on syntactic constituency. Additionally, this method is being designed to compute alignments driven by both linguistically motivated rules and statistically derived similarities between words.
Advisors: PD Dr. Helmar Gust, Prof. Dr. Peter Bosch, in the Graduate Programme "Cognitive Architectures: Rules and Patterns"
Schedule: Started in October 2003, estimated duration three years
In
Es sind schon diverse Methoden veröffentlicht worden, um Texte auf der Ebene der Sätze oder auf Wortebene zu alignieren. Trotzdem verbleiben Schwierigkeiten. Satzalignment funktioniert nur dann am besten, wenn verschiedene Strategien miteinander kombiniert werden, und die Qualität des Wortalignments leidet unter der Art der eingesetzten Verfahren: Sie benutzen fast ausschließlich statistische Modelle, die jedoch linguistische Strukturen nicht angemessen berücksichtigen. Im Wortalignment wird typischerweise davon ausgegangen, daß ein Satz eine unstrukturierte Menge von Wörtern ist. Die Mängel der statistischen Modelle sind bekannt und es wurden auch schon Verbesserungen vorgenommen, jedoch meist ohne die zugrunde liegenden statistischen Modelle zu ändern.
In meiner Doktorarbeit entwickle ich ein neues Alignmentverfahren, das explizit strukturierte Informationen ausnutzen kann: Um zwei Texte miteinander zu alignieren, nutzt es mehrere linguistische Beschreibungsebenen, wie Informationen über Lemmas und Wortarten, oder auch syntaktische Information. Außerdem werden Zuordnungen sowohl anhand statistischer Ähnlichkeit zwischen Wörtern oder Wortgruppen getroffen als auch anhand linguistisch motivierter Regeln.
Betreuer:PD Dr. Helmar Gust, Prof. Dr. Peter Bosch, im Rahmen des Graduiertenprogramms "Kognitive Architekturen: Regeln und Muster"
Zeitplan: Begonnen im Oktober 2003, Laufzeit drei Jahre