Kwiatkowski, M.; Höhfeld, S.: Thematisches Aufspüren von Web-Dokumenten : eine kritische Betrachtung von Focused Crawling-Strategien (2007)
0.01
0.009793494 = product of:
0.039173976 = sum of:
0.039173976 = weight(_text_:und in 153) [ClassicSimilarity], result of:
0.039173976 = score(doc=153,freq=16.0), product of:
0.1131191 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.051038075 = queryNorm
0.34630734 = fieldWeight in 153, product of:
4.0 = tf(freq=16.0), with freq of:
16.0 = termFreq=16.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.0390625 = fieldNorm(doc=153)
0.25 = coord(1/4)
- Abstract
- Herkömmliche Suchmaschinen dienen der breiten Websuche und zeichnen sich zumeist durch eine hohe Quantität - nicht unbedingt durch Qualität - ihrer Ergebnismengen aus. Zum Suchen von Dokumenten wird ein allgemeiner Crawler eingesetzt, der Webseiten aufspürt, um große Datenspeicher aufzubauen. Focused Crawler gehen dagegen gezielter vor: Nicht enorme Datenmengen sollen durchsucht, gespeichert und indexiert werden, sondern nur bestimmte, thematisch relevante Segmente des World Wide Web. Der Focused Crawler muss einen möglichst optimalen Weg durch das Web finden, um Knowledge Discovery zu betreiben. Dabei bleiben die für eine Thematik irrelevanten Bereiche des Web unberücksichtigt. Die Aufgabe wird dadurch erheblich verkleinert und der Ressourcenaufwand verringert. Ziel ist die Produktion qualifizierter Suchergebnisse zu einem bestimmten Wissensgebiet. Im Allgemeinen können Focused Crawling-Techniken für den Aufbau spezialisierter vertikaler Suchmaschinen eingesetzt werden. Sie sind darüber hinaus im Bereich der Digitalen Bibliotheken von Vorteil. Da diese oft über einen thematischen Schwerpunkt verfügen und der qualifizierten Literatur-Untersuchung dienen, müssen sie einen gewissen Qualitätsanspruch Genüge leisten und dabei lediglich Anfragen zu einem definierten Wissensbereich bedienen. Der Einsatz von Focused Crawling bietet sich also an, um eine hohe Dokument-Qualität in einer spezifischen Domäne zu gewährleisten. Dieser Review-Artikel beleuchtet grundlegende Ansätze des Focused Crawling und verfolgt diese bis in die aktuellen Entwicklungen. Praktische Einsatzgebiete und aktuelle Systeme untermauern die Bedeutsamkeit des Forschungsgebiets. Darüber hinaus wird eine kritische Betrachtung der aufgeführten Ansätze geleistet.
- Source
- Information - Wissenschaft und Praxis. 58(2007) H.2, S.69-82