Halip, I.: Automatische Extrahierung von Schlagworten aus unstrukturierten Texten (2005)
0.01
0.009159986 = product of:
0.036639944 = sum of:
0.036639944 = weight(_text_:und in 861) [ClassicSimilarity], result of:
0.036639944 = score(doc=861,freq=20.0), product of:
0.118290015 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.05337113 = queryNorm
0.3097467 = fieldWeight in 861, product of:
4.472136 = tf(freq=20.0), with freq of:
20.0 = termFreq=20.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.03125 = fieldNorm(doc=861)
0.25 = coord(1/4)
- Abstract
- Durch die zunehmende Mediatisierung und Digitalisierung wird die moderne Gesellschaft immer mehr mit dem Thema der Informationsüberflutung konfrontiert. Erstaunlicherweise führt der Zuwachs an Informationen gleichzeitig zu einem Mangel an Wissen. Die Erklärung kann darin gefunden werden, dass ein großer Teil der existierenden Informationen nicht aufgefunden werden kann. Es handelt sich meistens um Informationen die auf semi- und nichtstrukturierte Daten beruhen. Schätzungen zufolge sind heute rund 80% der entscheidungsrelevanten Informationen in Unternehmen in unstrukturierter, d. h. meist textueller Form vorhanden. Die Unfähigkeit der Maschinen den Inhalt unstrukturierter Texte zu verstehen führt dazu, dass dokumentiertes Wissen schwer auffindbar ist und oft unentdeckt bleibt. Wegen des Informationsvolumens, das meistens zu groß ist, um gelesen, verstanden oder sogar benutzt zu werden, ergibt sich folgendes Problem, mit dem man konfrontiert wird: Informationen die nicht in Wissen umgewandelt werden können, bleiben als papiergebundene oder digitale Dokumente in Data-Repositories verschlossen. Angesichts der heute anfallenden Menge an Dokumenten erscheint eine manuelle Vergabe von Schlagworten nicht mehr realistisch. Deshalb entwickelt Wissensmanagement unterstützende Verfahren, die Informationen rechtzeitig, in der richtigen Qualität und den richtigen Personen verfügbar machen. Einige Schwerpunkte an denen zur Zeit geforscht wird, sind Modelle zur Repräsentation von Dokumenten, Methoden zur Ähnlichkeitsbestimmung von Anfragen zu Dokumenten und zur Indexierung von Dokumentenmengen, sowie die automatische Klassifikation. Vor diesem Hintergrund konzentriert sich diese Arbeit auf die unterschiedlichen Verfahren der automatischen Indexierung, hebt die algorithmischen Vor- und Nachteile hervor, mit dem Ziel die Funktionsweise im Bereich der unstrukturierten Texte zu analysieren. Hierfür erfolgt im 3. Kapitel eine genauere Untersuchung und Darstellung automatischer Indexierungsverfahren. Zuvor werden in Kapitel 2 grundlegende Begrifflichkeiten erklärt, eingeordnet und abgegrenzt. Abschließend werden anhand der theoretischen Darlegung Implementierungen der vorgestellten Verfahren kurz beschrieben. Die Ausarbeitung endet mit der Schlussfolgerung und dem Ausblick.
- Content
- Ausarbeitung im Rahmen des Seminars Suchmaschinen und Suchalgorithmen, Institut für Wirtschaftsinformatik Praktische Informatik in der Wirtschaft, Westfälische Wilhelms-Universität Münster