Lingsoft · NoDaLiNe

GERTWOL und Morphologische Disambiguierung für das Deutsche

NODALIDA-95

Mariikka Haapalainen
Ari Majorin

Die morphologische Disambiguierung des Deutschen basiert auf dem CG-Formalismus, der ursprünglich von Professor Fred Karlsson (Constraint Grammar, 1990) erarbeitet worden ist. Die morphologische Analyse geschieht durch GERTWOL.


Morphologische Analyse (GERTWOL)

GERTWOL ist ein System zur automatischen Wortformerkennung deutscher Wörter. Die theoretische Grundlage des GERTWOL-Systems bildet die sprachunabhängige morphologische Analysemethode "Zwei-Ebenen-Modell" (TWOL, Two-Level Model for Morphology, 1983) von Professor Kimmo Koskenniemi.

Das Grundlexikon von GERTWOL ist das komplette Sprachmaterial des Deutsch-Englischen Wörterbuchs von Collins (The Collins German Dictionary, Neubearbeitung 1991, Copyright HarperCollins Publishers). Das Wortmaterial des CGD-Lexikons wurde aber deutlich vervollständigt, als GERTWOL Tests an unterschiedlichen Korpora unterzogen wurde.

GERTWOL verfügt über ein Wortformenlexikon von etwa 60 000 Wortformen, deren Geltungsbereich durch eine umfassende Derivationsmorphologie und einen vollständigen Mechanismus zur Kompositabildung erheblich erweitert wird. Zusätzlich konvertiert GERTWOL Infinitive, Adjektive und Partizipien zu Substantiven.

GERTWOL ist an unterschiedlichen Korpora, u. a. an Zeitungstexten, Gesetzestexten, Wetterberichten, literarischen Texten und Geschäftsberichten getestet worden und erreicht eine Datenabdeckung von über 99 % bei ortographisch einwandfreien Texten und über 98 % bei unbeschränkten Texten. Die Erkennungsraten von GERTWOL sind in Sun SPARCstation 2 etwa 200 Wortformen/Sekunde als morphologischer Analysator und etwa 700 W/S bei Wortformerkennung ohne morphologische Analyse.

Bei der morphologischen Analyse gibt GERTWOL die möglichen Lesungen einer deutschen Wortform an. Die Lesungen bestehen aus der Grundform des Wortes und aus morphologischen Daten zur Grundform. Die Lesungen eines Wortes bilden eine Kohorte. Im Durchschnitt enthält jede Kohorte bei der Analyse eines deutschen Textes etwa 4,5 alternative Lesungen.


Disambiguierung

Im CG-Formalismus gibt es zwei Typen der morphologischen Disambiguierung; die kontextunabhängige lokale Disambiguierung und die kontextbezogene Disambiguierung.

Lokale Disambiguierung

Morphologische Ambiguitäten können in GERTWOL durch die freie produktive Kompositabildung und Derivation entstehen. Die lokale Disambiguierung soll diejenigen Lesungen einer Kohorte entfernen, die ohne Einbezug des Kontextes als überflüssig oder als unwahrscheinlich bewertet werden können.

Die lokale Disambiguierung wählt die Lesung mit der Grundform, die die wenigsten Kompositagrenzen oder Suffixe aufweist (Compound Elimination Principle, Derivative Elimination Principle, Karlsson 1992).

Beispiele:
"<zugriffsbereite>"
        "zug#riff\s|bereit"  A POS SG NOM FEM
        "zu|griff\s|bereit"  A POS SG NOM FEM

"<*hausaufgaben>"
        "*haus#auf|gab~e"  S FEM PL NOM
        "*hau#sauf#gab~e"  S FEM PL NOM

Kontextbezogene Disambiguierung

Die Aufgabe der kontextzbezogenen Disambiguierung ist, diejenigen Lesungen einer Wortform zu entfernen, die im gegebenen Kontext unzulässig sind. Dies geschieht durch grammatische und heuristische Regeln, deren Gültigkeit an Korpora getestet und bestätigt worden ist.

Grammatische Regeln

In jeder grammatischen Regel wird eine partielle Generalisation über die Sprache geäußert. Jede Regel (Constraint) besteht aus vier Teilen: Funktionsbereich (Domain), Ziel (Target), Operator (Operator) und Kontextbedingungen (Context Conditions). Der Funktionsbereich gibt das zu disambiguierende Element an und das Ziel die Lesung, die entweder gewählt oder enfernt wird. Der Operator setzt die zu durchführende Operation fest. Die Kontextbedingungen definieren den Kontext, in dem die Regel zu funktionieren hat. Zum Zweck der Generalisierung dienen die sogenannten Sets. Die Elemente von diesen Sets sind Grundformen oder Tags, die in einer Lesung vorkommen.

Beispiel:

Im Deutschen darf ein Verb (V), wenn es großgeschrieben (STERNCHEN) wird, nur am Satzanfang (AFZDELIMITERDOPPELPUNKTKLAMMER) stehen. Im CG-Formalismus wird dasselbe folgendermaßen formuliert: Entferne (=0) ein großgeschriebenes Verb, wenn es nicht am Satzanfang steht.

(@w =0 (V)
        (0 STERNCHEN)
        (NOT -1 AFZDELIMITERDOPPELPUNKTKLAMMER))

Heuristische Regeln

In einer heuristischen Regel wird eine Wahrscheinlichkeit über die Sprache geäußert. Ihre Form entspricht der der grammatischen Regeln. Sie werden nach den grammatischen Regeln eingesetzt und haben als Aufgabe, die übriggebliebenen unzulässigen Lesungen zu entfernen.


Literatur

Karlsson, Fred, "Constraint Grammar as a framework for a parsing running text". In Karlgren, H., COLING-90. Helsinki 1990.

Karlsson, Fred, "SWETWOL: A Comprehensive Morphological Analyser for Swedish". In Nordic Journal of Linguistics, 15, 1-45. 1992.

Koskenniemi, Kimmo, Two-level morphology: A general computational model for word-form recognition and production. Helsinki 1983.


Appendix

Das Beispielsatz "GERTWOL ist ein System zur automatischen Wortformerkennung deutscher Wörter." nach der Analyse durch GERTWOL:

"<*g*e*r*t*w*o*l>"
        "*g*e*r*t*w*o*l"  ABK S EIGEN

"<ist>"
        "sein"  V IND PRÄS SG3

"<ein>"
        "ein"  ADV
        "ein"  PRÄF
        "ein"  ART INDEF SG NOM MASK
        "ein"  ART INDEF SG NOM NEUTR
        "ein"  ART INDEF SG AKK NEUTR
        "ein~en"  V IMP PRÄS GESPROCHEN SG2
        "ein"  NUM KARD

"<*system>"
        "*system"  S NEUTR SG NOM
        "*system"  S NEUTR SG AKK
        "*system"  S NEUTR SG DAT

"<zur>"
        "zu-die"  PRÄP ART DEF SG DAT FEM

"<automatischen>"
        "automat~isch"  A POS SG AKK MASK
        "automat~isch"  A POS SG DAT MASK
        "automat~isch"  A POS SG GEN MASK
        "automat~isch"  A POS SG DAT NEUTR
        "automat~isch"  A POS SG GEN NEUTR
        "automat~isch"  A POS SG DAT FEM
        "automat~isch"  A POS SG GEN FEM
        "automat~isch"  A POS PL NOM
        "automat~isch"  A POS PL AKK
        "automat~isch"  A POS PL DAT
        "automat~isch"  A POS PL GEN

"<*wortformerkennung>"
        "*wort#form#er|kenn~ung"  S FEM SG NOM
        "*wort#form#er|kenn~ung"  S FEM SG AKK
        "*wort#form#er|kenn~ung"  S FEM SG DAT
        "*wort#form#er|kenn~ung"  S FEM SG GEN
        "*wort#form~er#kenn~ung"  S FEM SG NOM
        "*wort#form~er#kenn~ung"  S FEM SG AKK
        "*wort#form~er#kenn~ung"  S FEM SG DAT
        "*wort#form~er#kenn~ung"  S FEM SG GEN

"<deutscher>"
        "deutsch"  A KOMP
        "deutsch"  A POS SG NOM MASK
        "deutsch"  A POS SG DAT FEM
        "deutsch"  A POS SG GEN FEM
        "deutsch"  A POS PL GEN

"<*wörter>"
        "*wort"  S NEUTR PL NOM
        "*wort"  S NEUTR PL AKK
        "*wort"  S NEUTR PL GEN

"<--punkt>"
        ""  PUNKT

Das Beispielsatz "GERTWOL ist ein System zur automatischen Wortformerkennung deutscher Wörter." nach der Einsetzung der morphologischen Disambiguierungsregeln (Stand 10.04.1995):

"<*g*e*r*t*w*o*l>"
        "*g*e*r*t*w*o*l" ABK S EIGEN
"<ist>"
        "sein" V IND PRÄS SG3
"<ein>"
        "ein" ART INDEF SG NOM NEUTR
"<*system>"
        "*system" S NEUTR SG NOM
"<zur>"
        "zu-die" PRÄP ART DEF SG DAT FEM
"<automatischen>"
        "automat~isch" A POS SG DAT FEM
"<*wortformerkennung>"
        "*wort#form#er|kenn~ung" S FEM SG DAT
        "*wort#form~er#kenn~ung" S FEM SG DAT
"<deutscher>"
        "deutsch" A KOMP
        "deutsch" A POS PL GEN
"<*wörter>"
        "*wort" S NEUTR PL GEN
"<--punkt>"
        ""  PUNKT

webmaster@lingsoft.fi