Lohmann, H.: KASCADE: Dokumentanreicherung und automatische Inhaltserschließung : Projektbericht und Ergebnisse des Retrievaltests (2000)
0.01
0.009032861 = product of:
0.036131445 = sum of:
0.036131445 = weight(_text_:und in 494) [ClassicSimilarity], result of:
0.036131445 = score(doc=494,freq=22.0), product of:
0.1271084 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.057349887 = queryNorm
0.28425696 = fieldWeight in 494, product of:
4.690416 = tf(freq=22.0), with freq of:
22.0 = termFreq=22.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.02734375 = fieldNorm(doc=494)
0.25 = coord(1/4)
- Abstract
- Der Test hat gezeigt, dass die Ergänzung der bibliothekarischen Titelaufnahme um zusätzliche inhaltsrelevante Daten zu einer beeindruckenden Verbesserung der Suchergebnisse führt. Die Dokumentanreicherung sollte daher als Ziel bibliothekarischer Bemühungen um eine Verbesserung des OPAC-Retrievals weiterverfolgt werden. Der im Projekt eingeschlagene Weg, die Inhaltsverzeichnisse zu scannen, erwies sich allerdings als wenig sinnvoll. Zwar erzielte das Scanningverfahren gute Ergebnisse, auch arbeitete die Texterkennungssoftware sehr zuverlässig. Das Scanning bietet darüber hinaus die Möglichkeit, die dabei angefertigte Grafik-Datei mit dem Titelsatz im OPAC zu verknüpfen und so dem Nutzer als Entscheidungshilfe bei der Ergebnismengenbeurteilung an die Hand zu geben. Die Arbeiten am Aufbau der Testdatenbank brachten aber die Erkenntnis, dass die Anreicherung im Wege des Scanning technisch außerordentlich problematisch ist und einen nicht vorauszusehenden und letztlich auch nicht zu rechtfertigenden Aufwand erfordert. Diese Methode der Anreicherung kann daher für einen Praxiseinsatz nicht empfohlen werden.
Abgesehen von diesen Überlegungen müssten für einen praktischen Einsatz der KASCADE-Entwicklungen weitere Voraussetzungen geschaffen werden. Erforderlich wäre zunächst die Optimierung und Rationalisierung der Verfahrensabläufe selbst. Die Teilprogramme unter KasKoll sollten in ein kompaktes Programm integriert werden. Die Sortiervorgänge könnten vereinfacht werden, indem die Deskriptoren in eine relationale Datenbank überführt werden. Letztendlich wirken sich diese Punkte aber vor allem auf die Dauer der Maschinenlaufzeiten aus, die bei der Frage nach den Implementierungskosten letztlich nur eine untergeordnete Rolle spielen. Optimiert werden sollte die Oberfläche zur Steuerung des Verfahrens. Bereits jetzt laufen einige der Programme unter einer menügeführten Windows-Schnittstelle (Kasadew) ab, was für alle Verfahrensteile erreicht werden sollte. Schließlich ist zu klären, unter welchen Bedingungen das Gewichtungsverfahren im Praxisbetrieb ablaufen kann.
Da sich mit jedem Dokument, das zu dem im Gewichtungsverfahren befindlichen Gesamtbestand hinzukommt, die Werte aller bereits gewichteten Deskriptoren ändern können, müsste die Berechnung der Häufigkeitsverteilung jeder Grundform im Prinzip nach jeder Änderung im Dokumentbestand neu berechnet werden. Eine Online-Aktualisierung des Bestandes erscheint daher wenig sinnvoll. In der Praxis könnte eine Neuberechnung in bestimmten zeitlichen Abständen mit einem Abzug des OPAC-Bestandes unabhängig vom eigentlichen Betrieb des OPAC erfolgen, was auch insofern genügen würde, als die zugrunde liegenden Maße auf relativen Häufigkeiten basieren. Dadurch würde nur ein geringer Verzug in der Bereitstellung der aktuellen Gewichte eintreten. Außerdem würde der Zeitfaktor eine nur untergeordnete Rolle spielen, da ein offline ablaufender Gewichtungslauf erst bis zum nächsten Aktualisierungszeitpunkt abgeschlossen sein müsste. Denkbar wäre zusätzlich, für die Zeit zwischen zwei Aktualisierungen des OPACs für die in den Neuzugängen enthaltenen Begriffe Standardgewichte einzusetzen, soweit diese Begriffe bereits in dem Bestand auftreten. Bei entsprechender Optimierung und Rationalisierung der SELIX-Verfahrensabläufe, Nutzung der Gewichte auf der Retrievalseite für ein Ranking der auszugebenden Dokumente und Integration der THEAS-Komponente kann das Verfahren zu einem wirkungsvollen Instrument zur Verbesserung der Retrievaleffektivität weiterentwickelt werden.
- Footnote
- Zugl.: Köln, Fachhochsch., Fachbereich Bibliotheks- und Informationswesen, Hausarbeit
- Imprint
- Düsseldorf : Universitäts- und Landesbibliothek
- Series
- Schriften der Universitäts- und Landesbibliothek Düsseldorf; 31