Title: Introduction to Text Technology: Using XML in Natural Language Processing

 

Lecturer: Georg Rehm, M.A. (Research Group for Applied and Computational Linguistics, Justus-Liebig-Universität Gießen)

 

 

Course Description:

 

This course will deal with a basic introduction to Text Technology. The two core components of this new, interdisciplinary field of research are the annotation of digitally available textual data with the aid of XML-based markup languages as well as their standardised processing in the context of generic Natural Language Processing-systems.

 

The course will begin with an introduction to the syntax of the Extensible Markup Language (XML), accompanied by a tutorial in which the participants will learn how to use XML-parsers. The second part will deal with several fields of application of XML-annotated documents and data for concrete Natural Language Processing tasks and processes (e.g., information extraction or automatic text summarization). The final part of the course involves a second tutorial, in which the automatic annotation and the processing of XML-data by means of standard techniques (e.g., XSLT, XPath, DOM) will be discussed.

 

We will use the eLearning module "Texttechnologie" (Text Technology) as our course material. This module is currently being developed in the BMBF-funded project MiLCA (Teaching Computational Linguistics with the aid of Media-intense Learning Objects).

 

 

 

 

Titel: Einführung in die Texttechnologie: Der Einsatz von XML in der Computerlinguistik

 

Dozent: Georg Rehm, M.A. (Arbeitsbereich Angewandte Sprachwissenschaft und Computerlinguistik, Justus-Liebig-Universität Gießen)

 

 

Kursbeschreibung:

 

Der Kurs behandelt eine grundlegende Einführung in die Texttechnologie. Die Kernbestandteile dieses neuen, interdisziplinären Themenfeldes sind die Auszeichnung digital verfügbarer Texte mit Hilfe XML-basierter Markup-Sprachen sowie deren standardisierte Verarbeitung im Kontext generischer sprachverarbeitender Systeme.

 

Wir werden uns in der Veranstaltung zunächst -- anhand praktischer Übungen mit XML-Parsern -- mit der Syntax der Extensible Markup Language (XML) beschäftigen, um daraufhin unterschiedliche Einsatzmöglichkeiten von XML-annotierten Texten und computerlinguistischen Ressourcen in konkreten Anwendungsszenarien (etwa Informationsextraktion oder automatisches Textzusammenfassen) zu diskutieren. Der dritte Teil beschäftigt sich mit der maschinellen Annotierung sowie dem Einsatz verarbeitungsrelevanter Standards (z.B. XSLT, XPath, DOM), um annotierte Dokumente dynamisch an andere Teilmodule eines sprachverarbeitenden Systems adaptieren zu können.

 

Als Materialien werden wir vornehmlich das eLearning-Modul "Texttechnologie" einsetzen, das derzeit im Rahmen des BMBF-geförderten Projekts MiLCA (Medien-intensive Lehrmodule in der Computerlinguistik-Ausbildung) entwickelt wird.