-
Busch, D.: Domänenspezifische hybride automatische Indexierung von bibliographischen Metadaten (2019)
0.01
0.009337749 = product of:
0.037350997 = sum of:
0.037350997 = weight(_text_:und in 5628) [ClassicSimilarity], result of:
0.037350997 = score(doc=5628,freq=8.0), product of:
0.1271084 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.057349887 = queryNorm
0.29385152 = fieldWeight in 5628, product of:
2.828427 = tf(freq=8.0), with freq of:
8.0 = termFreq=8.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.046875 = fieldNorm(doc=5628)
0.25 = coord(1/4)
- Abstract
- Im Fraunhofer-Informationszentrum Raum und Bau (IRB) wird Fachliteratur im Bereich Planen und Bauen bibliographisch erschlossen. Die daraus resultierenden Dokumente (Metadaten-Einträge) werden u.a. bei der Produktion der bibliographischen Datenbanken des IRB verwendet. In Abb. 1 ist ein Dokument dargestellt, das einen Zeitschriftenartikel beschreibt. Die Dokumente werden mit Deskriptoren von einer Nomenklatur (Schlagwortliste IRB) indexiert. Ein Deskriptor ist "eine Benennung., die für sich allein verwendbar, eindeutig zur Inhaltskennzeichnung geeignet und im betreffenden Dokumentationssystem zugelassen ist". Momentan wird die Indexierung intellektuell von menschlichen Experten durchgeführt. Die intellektuelle Indexierung ist zeitaufwendig und teuer. Eine Lösung des Problems besteht in der automatischen Indexierung, bei der die Zuordnung von Deskriptoren durch ein Computerprogramm erfolgt. Solche Computerprogramme werden im Folgenden auch als Klassifikatoren bezeichnet. In diesem Beitrag geht es um ein System zur automatischen Indexierung von deutschsprachigen Dokumenten im Bereich Bauwesen mit Deskriptoren aus der Schlagwortliste IRB.
-
Lohmann, H.: KASCADE: Dokumentanreicherung und automatische Inhaltserschließung : Projektbericht und Ergebnisse des Retrievaltests (2000)
0.01
0.009032861 = product of:
0.036131445 = sum of:
0.036131445 = weight(_text_:und in 494) [ClassicSimilarity], result of:
0.036131445 = score(doc=494,freq=22.0), product of:
0.1271084 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.057349887 = queryNorm
0.28425696 = fieldWeight in 494, product of:
4.690416 = tf(freq=22.0), with freq of:
22.0 = termFreq=22.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.02734375 = fieldNorm(doc=494)
0.25 = coord(1/4)
- Abstract
- Der Test hat gezeigt, dass die Ergänzung der bibliothekarischen Titelaufnahme um zusätzliche inhaltsrelevante Daten zu einer beeindruckenden Verbesserung der Suchergebnisse führt. Die Dokumentanreicherung sollte daher als Ziel bibliothekarischer Bemühungen um eine Verbesserung des OPAC-Retrievals weiterverfolgt werden. Der im Projekt eingeschlagene Weg, die Inhaltsverzeichnisse zu scannen, erwies sich allerdings als wenig sinnvoll. Zwar erzielte das Scanningverfahren gute Ergebnisse, auch arbeitete die Texterkennungssoftware sehr zuverlässig. Das Scanning bietet darüber hinaus die Möglichkeit, die dabei angefertigte Grafik-Datei mit dem Titelsatz im OPAC zu verknüpfen und so dem Nutzer als Entscheidungshilfe bei der Ergebnismengenbeurteilung an die Hand zu geben. Die Arbeiten am Aufbau der Testdatenbank brachten aber die Erkenntnis, dass die Anreicherung im Wege des Scanning technisch außerordentlich problematisch ist und einen nicht vorauszusehenden und letztlich auch nicht zu rechtfertigenden Aufwand erfordert. Diese Methode der Anreicherung kann daher für einen Praxiseinsatz nicht empfohlen werden.
Abgesehen von diesen Überlegungen müssten für einen praktischen Einsatz der KASCADE-Entwicklungen weitere Voraussetzungen geschaffen werden. Erforderlich wäre zunächst die Optimierung und Rationalisierung der Verfahrensabläufe selbst. Die Teilprogramme unter KasKoll sollten in ein kompaktes Programm integriert werden. Die Sortiervorgänge könnten vereinfacht werden, indem die Deskriptoren in eine relationale Datenbank überführt werden. Letztendlich wirken sich diese Punkte aber vor allem auf die Dauer der Maschinenlaufzeiten aus, die bei der Frage nach den Implementierungskosten letztlich nur eine untergeordnete Rolle spielen. Optimiert werden sollte die Oberfläche zur Steuerung des Verfahrens. Bereits jetzt laufen einige der Programme unter einer menügeführten Windows-Schnittstelle (Kasadew) ab, was für alle Verfahrensteile erreicht werden sollte. Schließlich ist zu klären, unter welchen Bedingungen das Gewichtungsverfahren im Praxisbetrieb ablaufen kann.
Da sich mit jedem Dokument, das zu dem im Gewichtungsverfahren befindlichen Gesamtbestand hinzukommt, die Werte aller bereits gewichteten Deskriptoren ändern können, müsste die Berechnung der Häufigkeitsverteilung jeder Grundform im Prinzip nach jeder Änderung im Dokumentbestand neu berechnet werden. Eine Online-Aktualisierung des Bestandes erscheint daher wenig sinnvoll. In der Praxis könnte eine Neuberechnung in bestimmten zeitlichen Abständen mit einem Abzug des OPAC-Bestandes unabhängig vom eigentlichen Betrieb des OPAC erfolgen, was auch insofern genügen würde, als die zugrunde liegenden Maße auf relativen Häufigkeiten basieren. Dadurch würde nur ein geringer Verzug in der Bereitstellung der aktuellen Gewichte eintreten. Außerdem würde der Zeitfaktor eine nur untergeordnete Rolle spielen, da ein offline ablaufender Gewichtungslauf erst bis zum nächsten Aktualisierungszeitpunkt abgeschlossen sein müsste. Denkbar wäre zusätzlich, für die Zeit zwischen zwei Aktualisierungen des OPACs für die in den Neuzugängen enthaltenen Begriffe Standardgewichte einzusetzen, soweit diese Begriffe bereits in dem Bestand auftreten. Bei entsprechender Optimierung und Rationalisierung der SELIX-Verfahrensabläufe, Nutzung der Gewichte auf der Retrievalseite für ein Ranking der auszugebenden Dokumente und Integration der THEAS-Komponente kann das Verfahren zu einem wirkungsvollen Instrument zur Verbesserung der Retrievaleffektivität weiterentwickelt werden.
- Footnote
- Zugl.: Köln, Fachhochsch., Fachbereich Bibliotheks- und Informationswesen, Hausarbeit
- Imprint
- Düsseldorf : Universitäts- und Landesbibliothek
- Series
- Schriften der Universitäts- und Landesbibliothek Düsseldorf; 31
-
Fuhr, N.: Klassifikationsverfahren bei der automatischen Indexierung (1983)
0.01
0.008803714 = product of:
0.035214856 = sum of:
0.035214856 = weight(_text_:und in 7697) [ClassicSimilarity], result of:
0.035214856 = score(doc=7697,freq=4.0), product of:
0.1271084 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.057349887 = queryNorm
0.27704588 = fieldWeight in 7697, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.0625 = fieldNorm(doc=7697)
0.25 = coord(1/4)
- Abstract
- Nach einer kurzen Einführung in die Darmstädter Projekte WAI und AIR werden die folgenden Themen behandelt: Ein Ansatz zur automatischen Klassifikation. Statistische Relationen für die Klassifikation. Indexieren von Dokumenten als Spezialfall der automatischen Klassifikation. Klassifikation von Elementen der Relevanzbeschreibung. Klassifikation zur Verbesserung der Relevanzbeschreibungen. Automatische Dokumentklassifikation und Automatische Indexierung klassifizierter Dokumente. Das Projekt AIR wird in Zusammenarbeit mit der Datenbasis INKA-PHYS des Fachinformationszentrums Energie, Physik, Mathematik in Karlsruhe durchgeführt
-
Zimmermann, H.H.: Möglichkeiten einer computergestützen Sacherschließung (2003)
0.01
0.008803714 = product of:
0.035214856 = sum of:
0.035214856 = weight(_text_:und in 2375) [ClassicSimilarity], result of:
0.035214856 = score(doc=2375,freq=4.0), product of:
0.1271084 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.057349887 = queryNorm
0.27704588 = fieldWeight in 2375, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.0625 = fieldNorm(doc=2375)
0.25 = coord(1/4)
- Abstract
- Prof. Dr. Harald Zimmermann, Universität des Saarlandes, berichtete über zukunftsfähige Erschließungsverfahren, die intellektuelle Leistungen einsparen helfen und trotzdem den Weg zur gewünschten Literatur öffnen können sollen. Er erinnerte an das von Lustig und Knorz in den 80er Jahren entwickelte Verfahren Air/Phys. Dort lernt das System mit dem Anwachsen eines lexikalischen Inventars (ISBN 3-487-07825-2).
-
Schöning-Walter, C.: Automatische Erschließungsverfahren für Netzpublikationen : zum Stand der Arbeiten im Projekt PETRUS (2011)
0.01
0.008803714 = product of:
0.035214856 = sum of:
0.035214856 = weight(_text_:und in 1714) [ClassicSimilarity], result of:
0.035214856 = score(doc=1714,freq=4.0), product of:
0.1271084 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.057349887 = queryNorm
0.27704588 = fieldWeight in 1714, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.0625 = fieldNorm(doc=1714)
0.25 = coord(1/4)
- Abstract
- Die Deutsche Nationalbibliothek (DNB) hat damit begonnen, ihre Erschließungsprozesse zu automatisieren, um die Publikationen in ihrem Bestand und die bibliografischen Metadaten trotz der enorm anwachsenden Sammlung gedruckter und digitaler Medien so schnell wie möglich für die Nutzung zur Verfügung zu stellen.
-
Nohr, H.: Theorie des Information Retrieval II : Automatische Indexierung (2004)
0.01
0.008699934 = product of:
0.034799736 = sum of:
0.034799736 = weight(_text_:und in 8) [ClassicSimilarity], result of:
0.034799736 = score(doc=8,freq=10.0), product of:
0.1271084 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.057349887 = queryNorm
0.27378 = fieldWeight in 8, product of:
3.1622777 = tf(freq=10.0), with freq of:
10.0 = termFreq=10.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.0390625 = fieldNorm(doc=8)
0.25 = coord(1/4)
- Abstract
- Ein großer Teil der Informationen - Schätzungen zufolge bis zu 80% - liegt in Organisationen in unstrukturierten Dokumenten vor. In der Vergangenheit wurden Lösungen für das Management strukturierter Informationen entwickelt, die es nun auch zu erreichen gilt für unstrukturierte Informationen. Neben Verfahren des Data Mining für die Datenanalyse treten Versuche, Text Mining (Lit. 06) auf die Textanalyse anzuwenden. Um gezielt Dokumente im Repository suchen zu können, ist eine effektive Inhaltserkennung und -kennzeichnung erforderlich, d.h. eine Zuordnung der Dokumente zu Themengebieten bzw die Speicherung geeigneter Indexterme als Metadaten. Zu diesem Zweck müssen die Dokumenteninhalte repräsentiert, d.h. indexiert oder klassifiziert, werden. Dokumentanalyse dient auch der Steuerung des Informations- und Dokumentenflusses. Ziel ist die Einleitung eines "Workflow nach Posteingang". Eine Dokumentanalyse kann anhand erkannter Merkmale Eingangspost automatisch an den Sachbearbeiter oder die zuständige Organisationseinheit (Rechnungen in die Buchhaltung, Aufträge in den Vertrieb) im Unternehmen leiten. Dokumentanalysen werden auch benötigt, wenn Mitarbeiter über einen persönlichen Informationsfilter relevante Dokumente automatisch zugestellt bekommen sollen. Aufgrund der Systemintegration werden Indexierungslösungen in den Funktionsumfang von DMS- bzw. Workflow-Produkten integriert. Eine Architektur solcher Systeme zeigt Abb. 1. Die Architektur zeigt die Indexierungs- bzw. Klassifizierungsfunktion im Zentrum der Anwendung. Dabei erfüllt sie Aufgaben für die Repräsentation von Dokumenten (Metadaten) und das spätere Retrieval.
- Source
- Grundlagen der praktischen Information und Dokumentation. 5., völlig neu gefaßte Ausgabe. 2 Bde. Hrsg. von R. Kuhlen, Th. Seeger u. D. Strauch. Begründet von Klaus Laisiepen, Ernst Lutterbeck, Karl-Heinrich Meyer-Uhlenried. Bd.1: Handbuch zur Einführung in die Informationswissenschaft und -praxis
-
Donath, A.: Flickr sorgt mit Automatik-Tags für Aufregung (2015)
0.01
0.008699934 = product of:
0.034799736 = sum of:
0.034799736 = weight(_text_:und in 1876) [ClassicSimilarity], result of:
0.034799736 = score(doc=1876,freq=10.0), product of:
0.1271084 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.057349887 = queryNorm
0.27378 = fieldWeight in 1876, product of:
3.1622777 = tf(freq=10.0), with freq of:
10.0 = termFreq=10.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.0390625 = fieldNorm(doc=1876)
0.25 = coord(1/4)
- Content
- "Flickr hat ein Tagging der heraufgeladenen Fotos eingeführt, das zusätzlich zu den Bildbeschreibungen der Nutzer versucht, die Fotos mit Schlagwörtern zu versehen, die den Bildinhalt beschreiben. Nach einem Bericht des britischen Guardian werden dabei Fehler gemacht, die unangebrachte Beschreibungen bis hin zu rassistischen oder politisch inkorrekten Bemerkungen beinhalten. So wurden dunkelhäutiger Menschen als "monochrom", "Tier" und "Affe" beschrieben. Auch das Gesicht einer hellhäutigen Frau wurde mit "Tier" klassifiziert. Bilder eines Konzentrationslagers wurden gar mit "Sport" und "Klettergerüst" verschlagwortet. Die automatischen Tags lassen sich nicht abschalten - und befinden sich nach Angaben von Yahoo noch in der Betaphase. Viel bringen sie nach Einschätzung von Golem.de nicht, da sie recht allgemein gehalten und wenig aussagekräftig sind. Oftmals kann der Algorithmus nur "Indoor" oder "Outdoor" hinzufügen, was zwar fast immer korrekt zugeordnet wird, dennoch wenig nutzt. Hinter den Kulissen scheint Flickr bereits an einer Verbesserung zu arbeiten - und hat dem Guardian auf Nachfrage versichert, dass die Probleme mit falschen Tags bekannt seien. Einige fehlerhafte Schlagwörter wurden mittlerweile auch wieder entfernt." Vgl. auch: https://news.ycombinator.com/item?id=8621658.
-
Oberhauser, O.; Labner, J.: OPAC-Erweiterung durch automatische Indexierung : Empirische Untersuchung mit Daten aus dem Österreichischen Verbundkatalog (2002)
0.01
0.008086728 = product of:
0.03234691 = sum of:
0.03234691 = weight(_text_:und in 883) [ClassicSimilarity], result of:
0.03234691 = score(doc=883,freq=6.0), product of:
0.1271084 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.057349887 = queryNorm
0.2544829 = fieldWeight in 883, product of:
2.4494898 = tf(freq=6.0), with freq of:
6.0 = termFreq=6.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.046875 = fieldNorm(doc=883)
0.25 = coord(1/4)
- Abstract
- In Anlehnung an die in den neunziger Jahren durchgeführten Erschließungsprojekte MILOS I und MILOS II, die die Eignung eines Verfahrens zur automatischen Indexierung für Bibliothekskataloge zum Thema hatten, wurde eine empirische Untersuchung anhand einer repräsentativen Stichprobe von Titelsätzen aus dem Österreichischen Verbundkatalog durchgeführt. Ziel war die Prüfung und Bewertung der Einsatzmöglichkeit dieses Verfahrens in den Online-Katalogen des Verbundes. Der Realsituation der OPAC-Benutzung gemäß wurde ausschließlich die Auswirkung auf den automatisch generierten Begriffen angereicherten Basic Index ("Alle Felder") untersucht. Dazu wurden 100 Suchanfragen zunächst im ursprünglichen Basic Index und sodann im angereicherten Basic Index in einem OPAC unter Aleph 500 durchgeführt. Die Tests erbrachten einen Zuwachs an relevanten Treffern bei nur leichten Verlusten an Precision, eine Reduktion der Nulltreffer-Ergebnisse sowie Aufschlüsse über die Auswirkung einer vorhandenen verbalen Sacherschließung.
-
Kugler, A.: Automatisierte Volltexterschließung von Retrodigitalisaten am Beispiel historischer Zeitungen (2018)
0.01
0.008086728 = product of:
0.03234691 = sum of:
0.03234691 = weight(_text_:und in 4595) [ClassicSimilarity], result of:
0.03234691 = score(doc=4595,freq=6.0), product of:
0.1271084 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.057349887 = queryNorm
0.2544829 = fieldWeight in 4595, product of:
2.4494898 = tf(freq=6.0), with freq of:
6.0 = termFreq=6.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.046875 = fieldNorm(doc=4595)
0.25 = coord(1/4)
- Abstract
- Seit ein paar Jahren postuliert die DFG in ihren Praxisregeln "Digitalisierung", dass eine ausschließliche Bilddigitalisierung nicht mehr den wissenschaftlichen Ansprüchen Genüge leiste, sondern der digitale Volltext notwendig sei, da dieser die Basis für eine wissenschaftliche Nachnutzung darstellt. Um ein besseres Verständnis davon zu erlangen, was sich hinter dem Begriff "Volltext" verbirgt, wird im Folgenden ein kleiner Einblick in die technischen Verfahren zur automatisierten Volltexterschließung von Retrodigitalisaten geboten. Fortschritte und auch Grenzen der aktuellen Methoden werden vorgestellt und wie Qualität in diesem Zusammenhang überhaupt bemessen werden kann. Die automatisierten Verfahren zur Volltexterschließung werden am Beispiel historischer Zeitungen erläutert, da deren Zugänglichmachung gerade in den Geisteswissenschaften ein großes Desiderat ist und diese Quellengattung zugleich aufgrund der Spaltenstruktur besondere technische Herausforderungen mit sich bringt. 2016 wurde das DFG-Projekt zur Erstellung eines "Masterplan Zeitungsdigitalisierung" fertiggestellt, dessen Ergebnisse hier einfließen.
-
Lepsky, K.: Maschinelle Indexierung von Titelaufnahmen zur Verbesserung der sachlichen Erschließung in Online-Publikumskatalogen (1994)
0.01
0.0077814576 = product of:
0.03112583 = sum of:
0.03112583 = weight(_text_:und in 7064) [ClassicSimilarity], result of:
0.03112583 = score(doc=7064,freq=2.0), product of:
0.1271084 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.057349887 = queryNorm
0.24487628 = fieldWeight in 7064, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.078125 = fieldNorm(doc=7064)
0.25 = coord(1/4)
- Series
- Kölner Arbeiten zum Bibliotheks- und Dokumentationswesen; H.18
-
Junger, U.; Müller-Dreier, A.: Bericht über den Workshop 'Perspektiven der Sacherschließung im GBV' am 12. März 1998 in der TIB Hannover (1999)
0.01
0.0077814576 = product of:
0.03112583 = sum of:
0.03112583 = weight(_text_:und in 3847) [ClassicSimilarity], result of:
0.03112583 = score(doc=3847,freq=2.0), product of:
0.1271084 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.057349887 = queryNorm
0.24487628 = fieldWeight in 3847, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.078125 = fieldNorm(doc=3847)
0.25 = coord(1/4)
- Source
- Mitteilungsblatt der Bibliotheken in Niedersachsen und Sachsen-Anhalt. 1998, H.110, S.14-18
-
Kutschekmanesch, S.; Lutes, B.; Moelle, K.; Thiel, U.; Tzeras, K.: Automated multilingual indexing : a synthesis of rule-based and thesaurus-based methods (1998)
0.01
0.0077814576 = product of:
0.03112583 = sum of:
0.03112583 = weight(_text_:und in 4157) [ClassicSimilarity], result of:
0.03112583 = score(doc=4157,freq=2.0), product of:
0.1271084 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.057349887 = queryNorm
0.24487628 = fieldWeight in 4157, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.078125 = fieldNorm(doc=4157)
0.25 = coord(1/4)
- Source
- Information und Märkte: 50. Deutscher Dokumentartag 1998, Kongreß der Deutschen Gesellschaft für Dokumentation e.V. (DGD), Rheinische Friedrich-Wilhelms-Universität Bonn, 22.-24. September 1998. Hrsg. von Marlies Ockenfeld u. Gerhard J. Mantwill
-
Hüther, H.: Selix im DFG-Projekt Kascade (1998)
0.01
0.0077814576 = product of:
0.03112583 = sum of:
0.03112583 = weight(_text_:und in 5151) [ClassicSimilarity], result of:
0.03112583 = score(doc=5151,freq=2.0), product of:
0.1271084 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.057349887 = queryNorm
0.24487628 = fieldWeight in 5151, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.078125 = fieldNorm(doc=5151)
0.25 = coord(1/4)
- Source
- Knowledge Management und Kommunikationssysteme: Proceedings des 6. Internationalen Symposiums für Informationswissenschaft (ISI '98) Prag, 3.-7. November 1998 / Hochschulverband für Informationswissenschaft (HI) e.V. Konstanz ; Fachrichtung Informationswissenschaft der Universität des Saarlandes, Saarbrücken. Hrsg.: Harald H. Zimmermann u. Volker Schramm
-
Peters, G.: Verschlagwortung und automatische Verfahren in der G+J Dokumentation (2003)
0.01
0.0077814576 = product of:
0.03112583 = sum of:
0.03112583 = weight(_text_:und in 2377) [ClassicSimilarity], result of:
0.03112583 = score(doc=2377,freq=2.0), product of:
0.1271084 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.057349887 = queryNorm
0.24487628 = fieldWeight in 2377, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.078125 = fieldNorm(doc=2377)
0.25 = coord(1/4)
-
Kempf, A.O.: Automatische Inhaltserschließung in der Fachinformation (2013)
0.01
0.0077814576 = product of:
0.03112583 = sum of:
0.03112583 = weight(_text_:und in 905) [ClassicSimilarity], result of:
0.03112583 = score(doc=905,freq=8.0), product of:
0.1271084 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.057349887 = queryNorm
0.24487628 = fieldWeight in 905, product of:
2.828427 = tf(freq=8.0), with freq of:
8.0 = termFreq=8.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.0390625 = fieldNorm(doc=905)
0.25 = coord(1/4)
- Abstract
- Der Artikel basiert auf einer Masterarbeit mit dem Titel "Automatische Indexierung in der sozialwissenschaftlichen Fachinformation. Eine Evaluationsstudie zur maschinellen Erschließung für die Datenbank SOLIS" (Kempf 2012), die im Rahmen des Aufbaustudiengangs Bibliotheks- und Informationswissenschaft an der Humboldt- Universität zu Berlin am Lehrstuhl Information Retrieval verfasst wurde. Auf der Grundlage des Schalenmodells zur Inhaltserschließung in der Fachinformation stellt der Artikel Evaluationsergebnisse eines automatischen Erschließungsverfahrens für den Einsatz in der sozialwissenschaftlichen Fachinformation vor. Ausgehend von dem von Krause beschriebenen Anwendungsszenario, wonach SOLIS-Datenbestände (Sozialwissenschaftliches Literaturinformationssystem) von geringerer Relevanz automatisch erschlossen werden sollten, wurden auf dieser Dokumentgrundlage zwei Testreihen mit der Indexierungssoftware MindServer der Firma Recommind durchgeführt. Neben den Auswirkungen allgemeiner Systemeinstellungen in der ersten Testreihe wurde in der zweiten Testreihe die Indexierungsleistung der Software für die Rand- und die Kernbereiche der Literaturdatenbank miteinander verglichen. Für letztere Testreihe wurden für beide Bereiche der Datenbank spezifische Versionen der Indexierungssoftware aufgebaut, die anhand von Dokumentkorpora aus den entsprechenden Bereichen trainiert wurden. Die Ergebnisse der Evaluation, die auf der Grundlage intellektuell generierter Vergleichsdaten erfolgt, weisen auf Unterschiede in der Indexierungsleistung zwischen Rand- und Kernbereichen hin, die einerseits gegen den Einsatz automatischer Indexierungsverfahren in den Randbereichen sprechen. Andererseits deutet sich an, dass sich die Indexierungsresultate durch den Aufbau fachteilgebietsspezifischer Trainingsmengen verbessern lassen.
- Source
- Information - Wissenschaft und Praxis. 64(2013) H.2/3, S.96-106
-
Mödden, E.: Inhaltserschließung im Zeitalter von Suchmaschinen und Volltextsuche (2018)
0.01
0.0077814576 = product of:
0.03112583 = sum of:
0.03112583 = weight(_text_:und in 5625) [ClassicSimilarity], result of:
0.03112583 = score(doc=5625,freq=2.0), product of:
0.1271084 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.057349887 = queryNorm
0.24487628 = fieldWeight in 5625, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.078125 = fieldNorm(doc=5625)
0.25 = coord(1/4)
-
Liedloff, V.: Anwendung eines existenten Klassifikationssystems im Bereich der computerunterstützten Inhaltsanalyse (1985)
0.01
0.00770325 = product of:
0.030813 = sum of:
0.030813 = weight(_text_:und in 2921) [ClassicSimilarity], result of:
0.030813 = score(doc=2921,freq=4.0), product of:
0.1271084 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.057349887 = queryNorm
0.24241515 = fieldWeight in 2921, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.0546875 = fieldNorm(doc=2921)
0.25 = coord(1/4)
- Abstract
- In universitärer Grundlagenforschung wurde das Computergestützte TeXterschließungssystem (CTX) entwickelt. Es ist ein wörterbuchorientiertes Verfahren, das aufbauend auf einer wort- und satzorientierten Verarbeitung von Texten zu einem deutschsprachigen Text/ Dokument formal-inhaltliche Stichwörter (Grundformen, systemintern "Deskriptoren" genannt) erstellt. Diese dienen als Input für die Computer-Unterstützte Inhaltsanalyse (CUI). Mit Hilfe eines Thesaurus werden die Deskriptoren zu Oberbegriffen zusammengefaßt und die durch CTX erstellte Deskriptorliste über eine Vergleichsliste auf die Kategorien (=Oberbegriffe) des Thesaurus abgebildet. Das Ergebnis wird über mathematisch-statistische Auswertungsverfahren weiterverarbeitet. Weitere Vorteile der Einbringung eines Thesaurus werden genannt
-
Malits, A.; Schäuble, P.: ¬Der Digitale Assistent : halbautomatisches Verfahren der Sacherschließung in der Zentralbibliothek Zürich (2014)
0.01
0.00770325 = product of:
0.030813 = sum of:
0.030813 = weight(_text_:und in 2562) [ClassicSimilarity], result of:
0.030813 = score(doc=2562,freq=4.0), product of:
0.1271084 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.057349887 = queryNorm
0.24241515 = fieldWeight in 2562, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.0546875 = fieldNorm(doc=2562)
0.25 = coord(1/4)
- Abstract
- Seit Juni 2013 ist der Digitale Assistent in den Workflow der Erschließungsprozesse der Zentralbibliothek Zürich integriert. Das System des Digitalen Assistenten kombiniert automatisch unterstützte Prozesse und intellektuelle Sacherschließung: Es werden Schlagwortvorschläge generiert, die danach intellektuell von den Fachreferenten überprüft werden. Im vorliegenden Beitrag wird die Entwicklung des Digitalen Assistenten im Kontext der Praxis der Sacherschließung im Allgemeinen und in der Zentralbibliothek Zürich im Speziellen skizziert. Im Anschluss werden die unterschiedlichen Prozesse der Datenverarbeitung des Systems näher erläutert, sodann wird auf Basis von Statistiken ein erstes Resümee gezogen. Ausführungen zu technischen Spezifikationen runden den Bericht ab.
-
Carevic, Z.: Semi-automatische Verschlagwortung zur Integration externer semantischer Inhalte innerhalb einer medizinischen Kooperationsplattform (2012)
0.01
0.00762424 = product of:
0.03049696 = sum of:
0.03049696 = weight(_text_:und in 897) [ClassicSimilarity], result of:
0.03049696 = score(doc=897,freq=12.0), product of:
0.1271084 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.057349887 = queryNorm
0.23992877 = fieldWeight in 897, product of:
3.4641016 = tf(freq=12.0), with freq of:
12.0 = termFreq=12.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.03125 = fieldNorm(doc=897)
0.25 = coord(1/4)
- Abstract
- Die vorliegende Arbeit beschäftigt sich mit der Integration von externen semantischen Inhalten auf Basis eines medizinischen Begriffssystems. Die zugrundeliegende Annahme ist, dass die Verwendung einer einheitlichen Terminologie auf Seiten des Anfragesystems und der Wissensbasis zu qualitativ hochwertigen Ergebnissen führt. Um dies zu erreichen muss auf Seiten des Anfragesystems eine Abbildung natürlicher Sprache auf die verwendete Terminologie gewährleistet werden. Dies geschieht auf Basis einer (semi-)automatischen Verschlagwortung textbasierter Inhalte. Im Wesentlichen lassen sich folgende Fragestellungen festhalten: Automatische Verschlagwortung textbasierter Inhalte Kann eine automatische Verschlagwortung textbasierter Inhalte auf Basis eines Begriffssystems optimiert werden? Der zentrale Aspekt der vorliegenden Arbeit ist die (semi-)automatische Verschlagwortung textbasierter Inhalte auf Basis eines medizinischen Begriffssystems. Zu diesem Zweck wird der aktuelle Stand der Forschung betrachtet. Es werden eine Reihe von Tokenizern verglichen um zu erfahren welche Algorithmen sich zur Ermittlung von Wortgrenzen eignen. Speziell wird betrachtet, wie die Ermittlung von Wortgrenzen in einer domänenspezifischen Umgebung eingesetzt werden kann. Auf Basis von identifizierten Token in einem Text werden die Auswirkungen des Stemming und POS-Tagging auf die Gesamtmenge der zu analysierenden Inhalte beobachtet. Abschließend wird evaluiert wie ein kontrolliertes Vokabular die Präzision bei der Verschlagwortung erhöhen kann. Dies geschieht unter der Annahme dass domänenspezifische Inhalte auch innerhalb eines domänenspezifischen Begriffssystems definiert sind. Zu diesem Zweck wird ein allgemeines Prozessmodell entwickelt anhand dessen eine Verschlagwortung vorgenommen wird.
Integration externer Inhalte Inwieweit kann die Nutzung einer einheitlichen Terminologie zwischen Anfragesystem und Wissensbasis den Prozess der Informationsbeschaffung unterstützen? Zu diesem Zweck wird in einer ersten Phase ermittelt welche Wissensbasen aus der medizinischen Domäne in der Linked Data Cloud zur Verfügung stehen. Aufbauend auf den Ergebnissen werden Informationen aus verschiedenen dezentralen Wissensbasen exemplarisch integriert. Der Fokus der Betrachtung liegt dabei auf der verwendeten Terminologie sowie der Nutzung von Semantic Web Technologien. Neben Informationen aus der Linked Data Cloud erfolgt eine Suche nach medizinischer Literatur in PubMed. Wie auch in der Linked Data Cloud erfolgt die Integration unter Verwendung einer einheitlichen Terminologie. Eine weitere Fragestellung ist, wie Informationen aus insgesamt 21. Mio Aufsatzzitaten in PubMed sinnvoll integriert werden können. Dabei wird ermittelt welche Mechanismen eingesetzt werden können um die Präzision der Ergebnisse zu optimieren. Eignung medizinischer Begriffssystem Welche medizinischen Begriffssysteme existieren und wie eignen sich diese als zugrungeliegendes Vokabular für die automatische Verschlagwortung und Integration semantischer Inhalte? Der Fokus liegt dabei speziell auf einer Bewertung der Reichhaltigkeit von Begriffssystemen, wobei insbesondere der Detaillierungsgrad von Interesse ist. Handelt es sich um ein spezifisches oder allgemeines Begriffssystem und eignet sich dieses auch dafür bestimmte Teilaspekte der Medizin, wie bspw. die Chirurige oder die Anästhesie, in einer ausreichenden Tiefe zu beschreiben?
-
Mielke, B.: Wider einige gängige Ansichten zur juristischen Informationserschließung (2002)
0.01
0.006602786 = product of:
0.026411144 = sum of:
0.026411144 = weight(_text_:und in 2145) [ClassicSimilarity], result of:
0.026411144 = score(doc=2145,freq=4.0), product of:
0.1271084 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.057349887 = queryNorm
0.20778441 = fieldWeight in 2145, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.046875 = fieldNorm(doc=2145)
0.25 = coord(1/4)
- Source
- Information und Mobilität: Optimierung und Vermeidung von Mobilität durch Information. Proceedings des 8. Internationalen Symposiums für Informationswissenschaft (ISI 2002), 7.-10.10.2002, Regensburg. Hrsg.: Rainer Hammwöhner, Christian Wolff, Christa Womser-Hacker