Title: Introduction to
Text Technology: Using XML in Natural Language Processing
Lecturer: Georg Rehm, M.A. (Research Group for Applied and Computational Linguistics, Justus-Liebig-Universität Gießen)
Course
Description:
This course will deal with a basic introduction to Text Technology. The two core components of this new, interdisciplinary field of research are the annotation of digitally available textual data with the aid of XML-based markup languages as well as their standardised processing in the context of generic Natural Language Processing-systems.
The course will begin with an introduction to the syntax of the Extensible Markup Language (XML), accompanied by a tutorial in which the participants will learn how to use XML-parsers. The second part will deal with several fields of application of XML-annotated documents and data for concrete Natural Language Processing tasks and processes (e.g., information extraction or automatic text summarization). The final part of the course involves a second tutorial, in which the automatic annotation and the processing of XML-data by means of standard techniques (e.g., XSLT, XPath, DOM) will be discussed.
We will use the eLearning module "Texttechnologie" (Text Technology) as our course material. This module is currently being developed in the BMBF-funded project MiLCA (Teaching Computational Linguistics with the aid of Media-intense Learning Objects).
Titel: Einführung in die
Texttechnologie: Der Einsatz von XML in der Computerlinguistik
Dozent: Georg
Rehm, M.A. (Arbeitsbereich Angewandte Sprachwissenschaft und
Computerlinguistik, Justus-Liebig-Universität Gießen)
Kursbeschreibung:
Der Kurs behandelt eine grundlegende Einführung in die Texttechnologie. Die
Kernbestandteile dieses neuen, interdisziplinären Themenfeldes sind die
Auszeichnung digital verfügbarer Texte mit Hilfe XML-basierter Markup-Sprachen
sowie deren standardisierte Verarbeitung im Kontext generischer
sprachverarbeitender Systeme.
Wir werden uns in der Veranstaltung zunächst -- anhand praktischer Übungen
mit XML-Parsern -- mit der Syntax der Extensible Markup Language (XML)
beschäftigen, um daraufhin unterschiedliche Einsatzmöglichkeiten von
XML-annotierten Texten und computerlinguistischen Ressourcen in konkreten
Anwendungsszenarien (etwa Informationsextraktion oder automatisches
Textzusammenfassen) zu diskutieren. Der dritte Teil beschäftigt sich mit der
maschinellen Annotierung sowie dem Einsatz verarbeitungsrelevanter Standards
(z.B. XSLT, XPath, DOM), um annotierte Dokumente dynamisch an andere Teilmodule
eines sprachverarbeitenden Systems adaptieren zu können.
Als Materialien werden wir vornehmlich das eLearning-Modul
"Texttechnologie" einsetzen, das derzeit im Rahmen des
BMBF-geförderten Projekts MiLCA (Medien-intensive Lehrmodule in der
Computerlinguistik-Ausbildung) entwickelt wird.