Maas, H.-D.: Indexieren mit AUTINDEX (2006)
0.01
0.009681322 = product of:
0.038725287 = sum of:
0.038725287 = weight(_text_:und in 6077) [ClassicSimilarity], result of:
0.038725287 = score(doc=6077,freq=30.0), product of:
0.11666329 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.05263717 = queryNorm
0.33194062 = fieldWeight in 6077, product of:
5.477226 = tf(freq=30.0), with freq of:
30.0 = termFreq=30.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.02734375 = fieldNorm(doc=6077)
0.25 = coord(1/4)
- Abstract
- Wenn man ein Computerprogramm besitzt, das einem zu fast jedem Textwort dessen grammatische Merkmale bestimmt und außerdem noch seine interne Struktur und einige semantische Informationen liefert, dann fragt man sich irgendwann: Könnte ich nicht auf der Grundlage dieser Angaben einen Text global charakterisieren, etwa indem ich versuche, die wichtigen Wörter dieses Textes zu errechnen? Die häufigsten Textwörter können es nicht sein, denn gerade sie sind sehr nichtssagend. Die seltensten Textwörter sind zwar aussagekräftig, aber sie sind zu viele - die meisten Lemmata eines Textes erscheinen nur ein einziges Mal. Irgendwie müsste man den Wortschatz einschränken können. Die rettende Idee war: Wir tun so, als seien die semantischen Merkmale Wörter, denn dann enthält der Wortschatz dieser Sprache nur noch etwa hundert Elemente, weil unsere morphologische Analyse (Mpro) rund 100 semantische Features verwendet. Wir vermuteten nun, dass die häufig vorkommenden Features wichtig für den Text sind und die selteneren als Ausreißer betrachten werden können. Die Implementierung dieser Idee ist der Urahn unseres Programmpaketes AUTINDEX zur automatischen Indexierung von Texten. Dieses allererste Programm erstellte also zu einem Text eine Statistik der semantischen Merkmale und gab die drei häufigsten Klassen mit den zugehörigen Lemmata aus. Das Ergebnis war verblüffend: Auf den ersten Blick konnte man sehen, worum es in dem Text ging. Bei näherem Hinsehen wurden aber auch Unzulänglichkeiten deutlich. Einige der Schlagwörter waren doch ziemlich nichtssagend, andere hätte man gerne in der Liste gehabt, und schließlich hätte man sich noch eine ganz globale Charakterisierung des Textes durch die Angabe von Fachgebieten gewünscht, etwa in der Form: Der Text hat mit Politik oder Wirtschaft zu tun, er berichtet über einen Unfall, eine Feierlichkeit usw. Es wurde also sofort deutlich, dass das Programm ohne eine weitere Wissensquelle keine wirklich guten Ergebnisse würde liefern können. Man braucht also einen Thesaurus, ein Wörterbuch, in dem einzelne Lemmata und auch mehrwortige Ausdrücke mit zusätzlichen Informationen versehen sind.
Die erste Implementierung wurde in Zusammenarbeit mit dem Fachinformationszentrum Technik (Frankfurt) erstellt. Eine Kontrolle der manuell vergebenen Grob- und Feinklassifizierung der Lexikonartikel des Brockhaus Multimedial und anderer Brockhaus-Lexika wurde mit AUTINDEX in Zusammenarbeit mit BIFAB (Mannheim) durchgeführt. AUTINDEX ist auch Bestandteil des Indexierungs- und Retrievalsystems der Firma AGI (Neustadt/Weinstraße), das in der Landesbibliothek Vorarlberg eingesetzt wird. Weiterhin wird AUTINDEX im System LEWI verwendet, das zusammen mit BIFAB entwickelt wird. Dieses System erlaubt natürlichsprachliche Anfragen an den Brockhaus Multimedial und liefert als Antwort die relevanten Lexikonartikel. Im IAI selbst wurden große Textmengen indexiert (Brockhaus- und Dudenlexika, Zeitungstexte usw.), die man für die Weiterentwicklung diverser Thesauri und Wörterbücher nutzen kann. Beispielsweise kann man sich für ein Wort alle Texte ausgeben lassen, in denen dieses Wort wichtig ist. Dabei sind die Texte nach Wichtigkeit sortiert. Zu einem gegebenen Wort kann man sich auch die Assoziationen oder die möglichen Klassifikationen berechnen lassen. Auf diese Weise kann man einen Thesaurus halbautomatisch erweitern.
- Source
- Information und Sprache: Beiträge zu Informationswissenschaft, Computerlinguistik, Bibliothekswesen und verwandten Fächern. Festschrift für Harald H. Zimmermann. Herausgegeben von Ilse Harms, Heinz-Dirk Luckhardt und Hans W. Giessen