Szenarien

Linguistische Vorverarbeitung von Texten

Wenn ein Text sprachlich analysiert werden soll, so muss er zunächst linguistisch vorverarbeitet werden. Ziel ist in diesem Fall, den im Text vorkommenden Wörtern die richtige Wortkategorie (Verb, Adjektiv, usw.) zuzuordnen. Dies geschieht mithilfe eines Tokenizers.

Unter Umständen muss hierbei auch die Umgebung eines Wortes betrachtet werden, um die richtige Wortkategorie zuordnen zu können, da manche Wörter zu mehreren Wortkategorien gehören können. Hierbei kommt ein Tagger zum Einsatz.

Textanalyse durch Sprachregeln

Um einen Text bzw. einen Satz analysieren und weiterverarbeiten zu können, bedarf es der Anwendung von Sprachregeln und eines dazugehörigen Analyseprogramms. Das Analyseprogramm (Syntaxparser) überprüft dabei, ob der Text bzw. Satz durch die Sprachregeln abgedeckt ist. Wenn die Abdeckung gegeben ist, dann kann das Analyse-Ergebnis für weitere Verarbeitungsschritte genutzt werden.

Reduktion von Lexikoneinträgen

Wenn in einer Anwendung ein Lexikon zum Einsatz kommt, so handelt es sich häufig um ein Vollformen-Lexikon, in dem alle Ausprägungen eines Wortes (alle Wortformen) enthalten sind. Der Nachteil dabei ist, dass ein solches Lexikon recht umfangreich werden kann. Es gibt allerdings die Möglichkeit, die Anzahl der Lexikoneinträge deutlich zu reduzieren. Dies geschieht mithilfe einer so genannten Morphologie-Komponente. Die Morphologie-Komponente sorgt dafür, dass im Lexikon nur noch die Grundformen von Wörtern stehen müssen (im Falle von regelmäßigen Wörtern).

Zugriff auf Satzinhalt / Semantische Repräsentation

Wenn ein Satz weiterverarbeitet werden soll, dann ist es von Vorteil, den syntaktisch analysierten Satz in eine formale Repräsentation zu überführen, die den Inhalt der Satzes widerspiegelt. Das heißt, es wird eine semantische Repräsentation für den Satz berechnet. Hierfür kann beispielsweise eine (komplexe) Feature-Value-Struktur zum Einsatz kommen.