Document (#29094)

Machill, M.
Neuberger, C.
Schweiger, W.
Wirth, W.
Wegweiser im Netz : Qualität und Nutzung von Suchmaschinen
Wegweiser im Netz: Qualität und Nutzung von Suchmaschinen. 3. Aufl. Hrsg.: M. Machill u. C. Welp
Gütersloh : Bertelsmann Stiftung
Das Internet ist ein Kosmos an Informationen aller Art. Zwar sind die Antworten auf Abermillionen Fragen vorhanden, doch stehen Nutzer vor der Aufgabe, diese auch zu finden. Eine zentrale Rolle spielen dabei Suchmaschinen. Beim Wiederauffinden von Informationen, dem so genannten Information Retrieval, handelt es sich um ein relativ gut erforschtes Feld. Die Forschung konzentrierte sich allerdings lange auf die Frage nach dem Wiederauffinden von Informationen in gut strukturierten Datenbanken. Bis zum Aufkommen des World Wide Web war kaum an eine große Datenkollektion zu denken, die höchst unterschiedlich strukturierte Dokumente enthielt. Hinsichtlich ihrer Strukturierung lassen sich Dokumente in drei Klassen ordnen: strukturiert, unstrukturiert und schwach strukturiert. Im Bereich der professionellen Datenbanken liegen die Informationen in strukturierter Form vor: Dokumente sind in Felder geteilt, die sich gezielt durchsuchen lassen. Zusätzliche Felder enthalten in der Regel Informationen über das Dokument wie beispielsweise den Namen des Autors, das Publikationsdatum oder die Namen von im Text behandelten Personen. So lässt sich beispielsweise die Anfrage nach allen Artikeln eines bestimmten Autors in einer Zeitungsdatenbank einfach und klar beantworten. Bei Web-Dokumenten kann die Suche nicht klar eingeschränkt werden, da nicht unterschieden werden kann, ob es sich bei dem Vorkommen des eingegebenen Namens um den Autor oder eine im Text behandelte Person handelt. Bei unstrukturierten Dokumenten handelt es sich schlicht um Fließtext, dessen formale Gestaltung keinerlei Rückschlüsse auf Meta-Informationen oder Textstellen von besonderer Bedeutung zulässt.
Bei HTML-Dokumenten im World Wide Web handelt es sich um schwach strukturierte Dokumente. Zwar findet keine Trennung in Feldinhalte statt, jedoch lassen sich aus Struktur- und Gestaltungsinformationen, die dem Dokument mittels der HTMLTags beigegeben werden, Rückschlüsse auf bedeutende und weniger bedeutende Textstellen ziehen. Eine zweite Herausforderung an die Information-RetrievalForschung ist schilicht die Größe des World Wide Web. Im Umfeld der professionellen Informationsvermittlung ist es von besonderem Interesse, die Informationen eines bestimmten Bereichs in einer Datenbank zu kumulieren. Natürlich wachsen diese themenbezogenen Datenbanken auch stetig an, das Volumen bleibt jedoch bei einigen Millionen Dokumenten noch »überschaubar«. Im Gegensatz dazu steht das World Wide Web. Zwar kann seine Größe nicht genau ermittelt werden, Schätzungen gehen jedoch inklusive der Invisible-Web-Inhalte von etwa zwölf Milliarden Dokumenten bis 550 Milliarden Dokumenten aus (vgl. Bergman 2001). Der dritte wichtige Punkt, der Information Retrieval in Datenbanken von dem im Internet unterscheidet, ist die Frage nach der Zuverlässigkeit der angebotenen Informationen. Während bei Datenbanken die Auswahl der aufgenommenen Informationen oft noch durch einen menschlichen Indexierer erfolgt, nehmen Suchmaschinen potenziell alle von ihnen aufgefundenen Dokumente in ihren Datenbestand auf.

Similar documents (content)

  1. Krüger, S.: Wissen ist Macht : Portale weisen den Weg und öffnen Türen (2001) 0.26
  2. Bekavac, B.: Metainformationsdienste des Internet (2004) 0.25
  3. Lehmann, K.; Machill, M.; Sander-Beuermann, W.: Blackbox Suchmaschine : Politik für Neue Medien. Interview mit Marcel Machill und Wolfgang Sander-Beuermann (2005) 0.22
  4. Auer, S.; Kasprzik, A.; Sens, I.: Von dokumentenbasierten zu wissensbasierten Informationsflüssen : Die Rolle wissenschaftlicher Bibliotheken im Transformationsprozess. Teil 1: Vor einer Revolution der wissenschaftlichen Kommunikation (2019) 0.19
  5. Lewandowski, D.: Suchmaschinen (2023) 0.19
