Szenarien
Linguistische Vorverarbeitung von Texten
Wenn ein Text sprachlich analysiert werden soll, so muss er zunächst
linguistisch vorverarbeitet werden. Ziel ist in diesem Fall, den im Text
vorkommenden Wörtern die richtige Wortkategorie (Verb, Adjektiv, usw.)
zuzuordnen. Dies geschieht mithilfe eines Tokenizers.
Unter Umständen muss hierbei auch die Umgebung eines Wortes betrachtet werden,
um die richtige Wortkategorie zuordnen zu können, da manche Wörter zu mehreren
Wortkategorien gehören können. Hierbei kommt ein Tagger zum Einsatz.
Textanalyse durch Sprachregeln
Um einen Text bzw. einen Satz analysieren und weiterverarbeiten zu können,
bedarf es der Anwendung von Sprachregeln und eines dazugehörigen Analyseprogramms.
Das Analyseprogramm (Syntaxparser) überprüft dabei, ob der Text bzw. Satz
durch die Sprachregeln abgedeckt ist.
Wenn die Abdeckung gegeben ist, dann kann das Analyse-Ergebnis für weitere
Verarbeitungsschritte genutzt werden.
Reduktion von Lexikoneinträgen
Wenn in einer Anwendung ein Lexikon zum Einsatz kommt, so handelt es sich
häufig um ein Vollformen-Lexikon, in dem alle Ausprägungen eines Wortes
(alle Wortformen) enthalten sind. Der Nachteil dabei ist, dass ein solches
Lexikon recht umfangreich werden kann.
Es gibt allerdings die Möglichkeit, die Anzahl der Lexikoneinträge deutlich
zu reduzieren.
Dies geschieht mithilfe einer so genannten Morphologie-Komponente.
Die Morphologie-Komponente sorgt dafür, dass im Lexikon nur noch
die Grundformen von Wörtern stehen müssen (im Falle von regelmäßigen Wörtern).
Zugriff auf Satzinhalt / Semantische Repräsentation
Wenn ein Satz weiterverarbeitet werden soll, dann ist es von Vorteil,
den syntaktisch analysierten Satz in eine formale Repräsentation zu überführen,
die den Inhalt der Satzes widerspiegelt.
Das heißt, es wird eine semantische Repräsentation für den Satz berechnet.
Hierfür kann beispielsweise eine (komplexe) Feature-Value-Struktur
zum Einsatz kommen.

