Blittkowsky, R.: ¬Das World Wide Web gleicht einer Fliege : Studien versuchen zu erklären, warum Suchmaschinen nicht immer fündig werden (2001)
0.01
0.008479646 = product of:
0.033918586 = sum of:
0.033918586 = weight(_text_:und in 1090) [ClassicSimilarity], result of:
0.033918586 = score(doc=1090,freq=38.0), product of:
0.1271084 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.057349887 = queryNorm
0.26684773 = fieldWeight in 1090, product of:
6.164414 = tf(freq=38.0), with freq of:
38.0 = termFreq=38.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.01953125 = fieldNorm(doc=1090)
0.25 = coord(1/4)
- Abstract
- Einer möchte wissen, auf welchen Webseiten sein Name vorkommt. Die andere sucht nach den neusten Sportergebnissen. Ein Dritter recherchiert den Wissensstand über Schrödingers Katze. Internetnutzer befragen jede Minute zu Hunderttausenden Suchmaschinen und Webkataloge. Die wurden, seit das Internet zum Masseninedium herangereift ist, zu Info- (Mono-) Polen für den Zugang zur heterogenen Welt des Web. Dahinter steckt viel Arbeit. Die Suchmaschinen schicken unentwegt Roboter und Agenten los, die Seiten lesen - und Inhalte oder Verweise an mächtige Datenbankservermelden. Täglich entstehen mehrere hunderttausend Webseiten; die Zahl der Adressen, die verarbeitet werden müsste, ist mittlerweile auf mehr als eine Milliarde gewachsen. Nicht nur deshalb wird die automatische Recherche zunehmend schwierig. Eine Untersuchung der Firmen Altavista, Compac und IBM, die die Verbindungen auf 500 Millionen Seiten auswertete, ergab: Im WWW wächst ein Bereich heran, den konventionelle Suchtechnologien nicht erfassen können. Das widerspricht früheren Studien, nach denen zwei beliebige Webadressen höchstens 19 Hyperlinks voneinander entfernt liegen - sich prinzipiell also alles finden lässt. Die Forscher um Altavista-Chefwissenschaftler Andrei Broder vergleichen den Aufbau des World Wide Weh mit der Form einer Fliege. Das Netz gliedert sich demnach in vier Bereiche. Etwa ein Drittel der Seiten fügen den zentralen Kein, um den sich die anderen Gebiete lagern. Den Knoten beschreiben die Fachleute als Giant Strongly Connected Components (SCC): Die Seiten sind untereinander eng verknüpft; es bestehen gute Linkverbindungen zwischen den Angeboten; sie sind leicht zu finden. Ein Viertel der Adressen macht eine Schicht aus, die sich als eine Schleife der Fliege sehen lässt. Es handelt sich vorwiegend um Anfangsseiten, Einstiegspunkte zu Webseiten und inhaltlich sortierende Kataloge.
Von dort aus sind die zentralen Seiten im Knoten gut erreichbar. Eine zweite Schleife, ein weiteres Viertel aller Webseiten, bilden die Endpunkte - Angebote ohne Links. Sie sind nur über den Knoten erreichbar. Verbleibt etwa ein Fünftel aller Seiten, die gar nicht oder nur indirekt mit dem Knoten verknüpft sind. Letztere werden als Tendrils bezeichnet. Diese Webangebote basieren beispielsweise auf Datenbanken von Unternehmen, Verbänden oder Organisationen. Sie entstehen erst in den wenn sie abgerufen werden - oft in kryptischen Dateiformaten und mit Animationen, Bildern oder Audiodateien angereichert. Surfer können diese Informationen mit Recherchen in den Webseiten der Schleifen aufspüren. Die Agenten der Suchmaschinen dagegen sind darauf trainiert, ständig verfügbare Dokumente im html-Format zu finden. Ihnen entgeht dieser Teil des World Wide Web. Das US-Softwareunternehmen Bright Planet schätzt, das WWW umfasst 2000-mal so viele Seiten, wie alle Suchsysteme zusammen glauben. Auch wenn sie systembedingt nicht alle Seiten kennen: Insgesamt liefern die automatischen Maschinen mehr Ergebnisse als Kataloge wie Yahoo, Dino-Online oder Looksmart. Deren Macher beschäftigen Redaktionsstäbe, die Inhalte recherchieren, sichten und in die Verzeichnisse einordnen. Webkataloge bauen also auf die humane Intelligenz ihrer Rechercheure, die Themen und Seiten verknüpfen sowie Inhalte kommentieren und einordnen. Yahoo, Lieblingskind der New Economy, bringt es indes gerade einmal auf 15 Millionen katalogisierter Webseiten. Gleichwohl kauft Yahoo bei einigen Themen mancher Suchmaschine den Schneid ab: Eine vorstrukturierte, handverlesene Einarbeitung von Inhalten in die Rubriken eines Katalogs kann genauer Auskunft geben.
Die Spitzenreiter unter den Suchmaschinen sehen sich im Zugzwang, ihren Service zu verbessern. Schließlich sollen die Kunden immer wieder Anfragen starten und damit indirekt die üppigen Werbepreise rechtfertigen. Alltheweb, Google und Altavista erkunden das Netz unterschiedlich. Alltheweb, betrieben vom norwegisch-amerikanischen Unternehmens Fast, setzt bei der Verwaltung der Index-Datenbank auf superschnelle Rechenleistungen und Servertechnologie, damit die richtigen Hyperlinks oben stehen. Etwa 500 Millionen indizierter Webseiten bedeuten für Alltheweb die Pole-Position. Die rein maschinelle Verarbeitung scheint ein gutes Konzept zu sein: Allthewebs Resultatslisten warten mit den besten mehrsprachigen Kommentaren auf. Die Suchmaschine Google, die ihren Namen der Zahl Googol verdankt und eine eins mit hundert Nullen bezeichnet, speichert alle Webseiten lokal auf einer Computerfarm mit 6000 Zentraleinheiten. Sie verwendet ein mathematisches Verfahren, um Webseiten nach inhaltlichen Kriterien zu ordnen. Larry Page und Sergej Brin, die Entwickler des kalifornischen Projekts an der Stanford University, setzen bei der internen Bewertung von Webseiten, dem Page-Ranking, auf die Einschätzungen der Internet-Surfer: Wenn sie einem Verweis auf eine andere Adresse folgen, treffen sie eine intuitive Entscheidung. Sie rufen ein Angebot auf, von dem sie bessere Informationen, eine konkrete Antwort auf ihre Frage erwarten. Page und Brin überlegten, die Summe der Surfentscheidungen kann ihren Inhalt indirekt qualifizieren: Je häufiger eine Webseite ausgewählt wird, desto höher kann ihre Qualität sein - in Bezug auf die inhaltliche Relevanz hinsichtlich eines Themas. Mit einem komplizierten Bewertungsverfahren filtern die Datenbankserver von Google permanent und ohne menschliches Zutun die Entscheidungen unzähliger Surfer Die Ergebnisse von Google gehören nachweisbar zu den besten, die Maschinen weltweit bieten. Altavista ist schon lange im Geschäft. Auch die Manager dieses Unternehmens setzen auf einen hohen technologischen Aufwand. Sie schicken Suchroboter, genannt Scooter, los, die Tag für Tag ungefähr 24 Millionen Dokumente überprüfen und gegebenenfalls der Datenbank hinzufügen. Das entspricht einer Kapazität von 800 DIN-A4-Seiten pro Sekunde. Die Datenbank erfasst alle Worte eines Dokuments. Der Vorteil der Volltext-Indizierung ist offenkundig: Jedes Dokument kann theoretisch auf Grund eines darin enthaltenen Worts sekundenschnell gefunden werden. Altavista kennt 50 Millionen deutschsprachiger Webseiten. Als Spezialität findet sie auch Produktinformationen und Markenbezeichnungen - und sicher auch das Neueste zu Schrödingers Katze