Document (#26722)
- Author
- Charisius, H.
- Title
- Gängige Suchmaschinen übersehen weite Bereiche des Internet, neue Dienste helfen beim Heben der Info-Schätze : Mehr drin, als man denkt
- Source
- Focus. 2003, H.1, S.72-74
- Year
- 2003
- Series
- Internet
- Abstract
- Unendlich weit. Über Jahrzehnte wuchs das Internet zum Wissenskosmos. Neue Suchstrategien erschließen Nutzern die verborgenen Informationen. Mit Bezugnahme auf das Invisible Web (Grafik) und Stellungnahmen von W.G. Stock (Bild), W. Sander-Beuermann (MetaGer) (Bild) u. M. Henzinger (google.de) (Bild)
- Content
- "Wenn Chris Sherman über das Internet spricht, schweift er mitunter ab zu den Sternen. "Wie das Universum ist auch das Web voll dunkler Materie", sagt der Suchmaschinenexperte aus Los Angeles. "Die Astronomen erzählen uns, dass selbst das stärkste Teleskop höchstens zehn Prozent der Himmelskörper im All aufspüren kann. " Der Rest sei dunkel und somit unsichtbar. Genauso verhalte es sich mit Informationen im Web. "Das meiste Wissen", so Sherman, "bleibt selbst den besten Suchmaschinen verborgen." Höchstens ein Zehntel des Internet können die digitalen Spürhunde durchwühlen. Der Rest bleibt unter der Oberfläche im so genannten Deep Web verborgen, verteilt auf Datenbanken, Archive und Foren, oder treibt unverlinkt im Info-Meer - unerreichbar für Suchmaschinen. Eine Studie von Brightplanet, einer US-Firma für Suchtechnologie, rechnet vor, dass im Deep Web 400- bis 550-mal mehr Daten liegen als im oberflächlichen Surface-Web, in dem Google & Co. fischen können." Wenn Informationen die wichtigste Ware im 21. Jahrhundert sind, dann ist das tiefe Web unschätzbar wertvoll", sagt Michael Bergman aus dem Brightplanet-Vorstand. Um ihren Index zu pflegen und zu erweitern, schicken Suchmaschinen ihre Spione, so genannte Spider oder Crawler, durchs Netz. Diese Software-Roboter hangeln sich von Link zu Link und speichern jede neue Seite, die sie erreichen. "Millionen unverlinkter Web-Auftritte oder dynamisch aus Datenbanken erzeugte Dokumente gehen ihnen dabei durch die Maschen", schätzt Wolfgang Sander-Beuermann, Leiter des Suchmaschinenlabors der Uni Hannover. Andere Seiten sperren die Agenten bewusst aus. Ein versteckter Hinweis oder eine Passwortabfrage blockt die Spider ab, zum Beispiel am Eingang zu Firmen-Intranets. An manche Inhalte kommen die Spider nicht heran, weil sie mit deren Datenformat nichts anfangen können: Musikdateien, Bilder und Textdokumente sind schwer verdauliche Brocken für die Agenten, die auf den Internet-Code HTML spezialisiert sind. Den größten Teil des Deep Web füllen "Datenbanken mit gesichertem und für jedermann zugänglichem Wissen", weiß Netz-Ausloter Sherman, der zusammen mit dem Bibliothekar und Informationsspezialisten Gary Price in dem Buch "The Invisible Web" die Tiefenregionen des Internet erstmals für die breite Masse der Anwender sichtbar macht. Zu den wertvollsten Informationsquellen zählen kostenlose Archive, die Kataloge öffentlicher Bibliotheken, Datenbanken von Universitäten, Behörden, Patentämtern oder des Statistischen Bundesamts, ferner Newsgroups, das sind themenspezifische Schwarze Bretter im Netz, und digitale Produktkataloge. "Die Suchmaschinen können nicht in diesen Schätzen stöbem, weil sie erst gar nicht hineingelangen", erklärt Sherman. Vor dem Zugriff zum Beispiel auf das kostenlose Archiv von FOCUS muss der Nutzer per Eingabemaske nach Schlagwörtern recherchieren. Die Crux für Google & Co. bringt Sherman auf den Punkt: "Sie können nicht tippen" -und müssen deshalb draußen bleiben. Dasselbe Spiel beim größten deutschen Buchkatalog: Die digitalen Fahnder finden ihn zwar und führen den Suchenden zur Deutschen Bibliothek unter www.ddb.de. In dem Verzeichnis, das über acht Millionen Druckerzeugnisse listet, muss der Gast dann selbst weitersuchen. Für Suchmaschinen ist der Index unsichtbar. Auch an der gezielten Recherche nach Albert Einsteins Lebenslauf scheitern automatische Findhilfen. So meldet Google zwar 680 000 Treffer für Albert Einstein. Nur die Vita, die neben 25 000 weiteren im Archiv von www.biography.com liegt, findet der beliebte Generalist nicht.
Auch an die Daten der Flugverbindungen zwischen Berlin und New York kommt Google nicht heran. Die spuckt hingegen www.trip.com binnen Sekunden inklusive Preisen und Buchungsmöglichkeit aus. Um solche Quellen künftig anzuzapfen, verfolgen Suchdienste unterschiedliche Strategien. Die in South Dakota ansässige Firma Brightplanet katalogisiert unter der ambitionierten Adresse www.completeplanet.com nach eigenen Angaben 103 000 Datenbanken und Spezialsuchmaschinen. Dazu verkauft das Unternehmen den Rechercheautomaten Lexibot, ein kleines Programm, das mehr als 4300 Wissenssammlungen auf einen Rutsch abfragen kann. Andere Hersteller bieten ähnliche Software-Agenten, die im Deep Web schürfen (s. Kasten). Auch die klassischen Suchhilfen dringen in immer tiefere Regionen vor. Der deutsche Anbieter Acoon liefert testweise Links zu Musikdateien in der Tauschbörse eDonkey in der Trefferliste. Wolfgang Sander-Beuermann entwickelt derzeit mit Kollegen im Hannoveraner Suchmaschinenlabor das forschungsportal.net "für das deutsche Hochschulwissen, das bei den beliebten Allzwecksuchern in der Treffermasse untergeht", so Sander-Beuermann. Branchenprimus Google kann seit geraumer Zeit News von 4000 ausgewählten Nachrichtenquellen abgreifen, Textdokumente lesen, Fotos und Grafiken finden und in einem riesigen Archiv nach Newsgroups-Einträgen fahnden. "Das Archiv unter groups.google.com beherbergt Foren zu fast jedem denkbaren Thema", erklärt Suchspezialist Sander-Beuermann. "Immer wenn ich im Web nicht weiterkomme, suche ich in diesem Teil des Internet." Den jüngsten Coup landete der beliebte Dienst, der inzwischen fast 3,1 Milliarden Dokumente erfasst hat, vor einigen Tagen mit dem auf Produkte spezialisierten Zusatzangebot froogle.com. "Wir haben Froogle auf vielfachen Wunsch unserer Nutzer entwickelt", erzählt die Leiterin der Google-Forschungsabteilung Monika Henzinger. Auch Konkurrent Altavista fahndet nach Musikdateien, Fotos, Videos und Nachrichten. Eine viel versprechende Strategie verfolgt auch Northem Light. Der Dienst durchsucht gleichzeitig den von Spidem erstellten Index und ausgewählte Spezialdatenbanken. "Solche Hybride vereinigen die unterschiedlichen Welten des Web, ein sinnvoller Ansatz", meint Wolfgang Stock, Professor für Informationswissenschaft an der Uni Düsseldorf und FH Köln. Leider sei der Index teilweise veraltet und recht klein, klagt der Computerexperte, der mit seinen Studenten die Qualität von Suchmaschinen untersucht hat. Den Umfang des in Datenbanken schlummernden Wissens schätzt Stock nüchterner ein als Michael Bergman von Brightplanet: "Das Unternehmen hat nicht die einzelnen Dokumente ausgewertet, sondem den benötigten Speicherplatz ermittelt." Wenn man sich an der Zahl der Datensätze orientiere, sei "deren Größenschätzung wahrscheinlich zehnmal zu hoch", kalkuliert Stock. Solange die meisten Suchdienste nur den kleineren Teil des Internet im Blick haben, bleibt der Expertenstreit über die Größe des gesamten Netzes folgenlos. "Trotz aller Verbesserungen kann keine Suchmaschine alle Anfragen gleichermaßen gut beantworten", sagt der Berliner Suchmaschinenspezialist und Betreiber des Ratgebers at-web.de, Klaus Patzwaldt. "Dazu müssten Computer so intelligent wie Menschen sein." " - Footnote
- Vgl.: www.invisible-web.net - www.findolin.de - www.download.de - www.lii.org - www.searchenginewatch.com - www.ithaki.net/kids - www.bingoo.de - www.lexibot.com - www.flipper.de
- Theme
- Internet
Suchmaschinen - Object
- Findolin
Bingoo
Lexibot
Flipper
Similar documents (content)
-
Lorenz, B.: ¬Die Fachsystematik Technik der Regensburger Verbundklassifikation : Ein Fallbeispiel für Optimierung (1998)
0.07
0.066999584 = sum of: 0.066999584 = product of: 0.33499792 = sum of: 0.0510333 = weight(abstract_txt:bereiche in 6626) [ClassicSimilarity], result of: 0.0510333 = score(doc=6626,freq=1.0), product of: 0.13337994 = queryWeight, product of: 1.0494953 = boost 6.996407 = idf(docFreq=109, maxDocs=44218) 0.01816498 = queryNorm 0.382616 = fieldWeight in 6626, product of: 1.0 = tf(freq=1.0), with freq of: 1.0 = termFreq=1.0 6.996407 = idf(docFreq=109, maxDocs=44218) 0.0546875 = fieldNorm(doc=6626) 0.052485667 = weight(abstract_txt:erschließen in 6626) [ClassicSimilarity], result of: 0.052485667 = score(doc=6626,freq=1.0), product of: 0.13589866 = queryWeight, product of: 1.0593582 = boost 7.062158 = idf(docFreq=102, maxDocs=44218) 0.01816498 = queryNorm 0.38621178 = fieldWeight in 6626, product of: 1.0 = tf(freq=1.0), with freq of: 1.0 = termFreq=1.0 7.062158 = idf(docFreq=102, maxDocs=44218) 0.0546875 = fieldNorm(doc=6626) 0.02672769 = weight(abstract_txt:internet in 6626) [ClassicSimilarity], result of: 0.02672769 = score(doc=6626,freq=3.0), product of: 0.07570629 = queryWeight, product of: 1.1181916 = boost 3.7271836 = idf(docFreq=2891, maxDocs=44218) 0.01816498 = queryNorm 0.3530445 = fieldWeight in 6626, product of: 1.7320508 = tf(freq=3.0), with freq of: 3.0 = termFreq=3.0 3.7271836 = idf(docFreq=2891, maxDocs=44218) 0.0546875 = fieldNorm(doc=6626) 0.09652346 = weight(abstract_txt:weite in 6626) [ClassicSimilarity], result of: 0.09652346 = score(doc=6626,freq=1.0), product of: 0.20399052 = queryWeight, product of: 1.2978971 = boost 8.652365 = idf(docFreq=20, maxDocs=44218) 0.01816498 = queryNorm 0.47317618 = fieldWeight in 6626, product of: 1.0 = tf(freq=1.0), with freq of: 1.0 = termFreq=1.0 8.652365 = idf(docFreq=20, maxDocs=44218) 0.0546875 = fieldNorm(doc=6626) 0.10822783 = weight(abstract_txt:übersehen in 6626) [ClassicSimilarity], result of: 0.10822783 = score(doc=6626,freq=1.0), product of: 0.22016454 = queryWeight, product of: 1.3483696 = boost 8.988837 = idf(docFreq=14, maxDocs=44218) 0.01816498 = queryNorm 0.49157703 = fieldWeight in 6626, product of: 1.0 = tf(freq=1.0), with freq of: 1.0 = termFreq=1.0 8.988837 = idf(docFreq=14, maxDocs=44218) 0.0546875 = fieldNorm(doc=6626) 0.2 = coord(5/25)
-
Otto, M.: Suchstrategien im Internet : Search engines, Themenkataloge, Besprechungsdienste (1997)
0.07
0.065743275 = sum of: 0.065743275 = product of: 0.821791 = sum of: 0.04364613 = weight(abstract_txt:internet in 2860) [ClassicSimilarity], result of: 0.04364613 = score(doc=2860,freq=2.0), product of: 0.07570629 = queryWeight, product of: 1.1181916 = boost 3.7271836 = idf(docFreq=2891, maxDocs=44218) 0.01816498 = queryNorm 0.57651925 = fieldWeight in 2860, product of: 1.4142135 = tf(freq=2.0), with freq of: 2.0 = termFreq=2.0 3.7271836 = idf(docFreq=2891, maxDocs=44218) 0.109375 = fieldNorm(doc=2860) 0.77814484 = weight(title_txt:suchstrategien in 2860) [ClassicSimilarity], result of: 0.77814484 = score(doc=2860,freq=1.0), product of: 0.2272303 = queryWeight, product of: 1.3698354 = boost 9.131938 = idf(docFreq=12, maxDocs=44218) 0.01816498 = queryNorm 3.4244766 = fieldWeight in 2860, product of: 1.0 = tf(freq=1.0), with freq of: 1.0 = termFreq=1.0 9.131938 = idf(docFreq=12, maxDocs=44218) 0.375 = fieldNorm(doc=2860) 0.08 = coord(2/25)
-
Zuboff, S.: ¬Das Zeitalter des Überwachungskapitalismus (2018)
0.05
0.050137103 = sum of: 0.050137103 = product of: 0.4178092 = sum of: 0.17117408 = weight(abstract_txt:verborgenen in 4602) [ClassicSimilarity], result of: 0.17117408 = score(doc=4602,freq=1.0), product of: 0.23561996 = queryWeight, product of: 1.3948944 = boost 9.298992 = idf(docFreq=10, maxDocs=44218) 0.01816498 = queryNorm 0.72648376 = fieldWeight in 4602, product of: 1.0 = tf(freq=1.0), with freq of: 1.0 = termFreq=1.0 9.298992 = idf(docFreq=10, maxDocs=44218) 0.078125 = fieldNorm(doc=4602) 0.048506513 = weight(abstract_txt:neue in 4602) [ClassicSimilarity], result of: 0.048506513 = score(doc=4602,freq=1.0), product of: 0.12807474 = queryWeight, product of: 1.4543937 = boost 4.8478208 = idf(docFreq=942, maxDocs=44218) 0.01816498 = queryNorm 0.378736 = fieldWeight in 4602, product of: 1.0 = tf(freq=1.0), with freq of: 1.0 = termFreq=1.0 4.8478208 = idf(docFreq=942, maxDocs=44218) 0.078125 = fieldNorm(doc=4602) 0.19812858 = weight(abstract_txt:bild in 4602) [ClassicSimilarity], result of: 0.19812858 = score(doc=4602,freq=1.0), product of: 0.37462085 = queryWeight, product of: 3.0464346 = boost 6.769634 = idf(docFreq=137, maxDocs=44218) 0.01816498 = queryNorm 0.5288776 = fieldWeight in 4602, product of: 1.0 = tf(freq=1.0), with freq of: 1.0 = termFreq=1.0 6.769634 = idf(docFreq=137, maxDocs=44218) 0.078125 = fieldNorm(doc=4602) 0.12 = coord(3/25)
-
Straßner, E.: Text-Bild-Kommunikation - Bild-Text-Kommunikation (2001)
0.05
0.047296364 = sum of: 0.047296364 = product of: 0.39413637 = sum of: 0.05949492 = weight(abstract_txt:helfen in 6593) [ClassicSimilarity], result of: 0.05949492 = score(doc=6593,freq=1.0), product of: 0.13515954 = queryWeight, product of: 1.0564735 = boost 7.042927 = idf(docFreq=104, maxDocs=44218) 0.01816498 = queryNorm 0.44018292 = fieldWeight in 6593, product of: 1.0 = tf(freq=1.0), with freq of: 1.0 = termFreq=1.0 7.042927 = idf(docFreq=104, maxDocs=44218) 0.0625 = fieldNorm(doc=6593) 0.017635701 = weight(abstract_txt:internet in 6593) [ClassicSimilarity], result of: 0.017635701 = score(doc=6593,freq=1.0), product of: 0.07570629 = queryWeight, product of: 1.1181916 = boost 3.7271836 = idf(docFreq=2891, maxDocs=44218) 0.01816498 = queryNorm 0.23294897 = fieldWeight in 6593, product of: 1.0 = tf(freq=1.0), with freq of: 1.0 = termFreq=1.0 3.7271836 = idf(docFreq=2891, maxDocs=44218) 0.0625 = fieldNorm(doc=6593) 0.31700575 = weight(abstract_txt:bild in 6593) [ClassicSimilarity], result of: 0.31700575 = score(doc=6593,freq=4.0), product of: 0.37462085 = queryWeight, product of: 3.0464346 = boost 6.769634 = idf(docFreq=137, maxDocs=44218) 0.01816498 = queryNorm 0.8462042 = fieldWeight in 6593, product of: 2.0 = tf(freq=4.0), with freq of: 4.0 = termFreq=4.0 6.769634 = idf(docFreq=137, maxDocs=44218) 0.0625 = fieldNorm(doc=6593) 0.12 = coord(3/25)
-
Seckel, A.: Optische Illusionen (2004)
0.05
0.046578992 = sum of: 0.046578992 = product of: 0.3881583 = sum of: 0.08105676 = weight(abstract_txt:unendlich in 2168) [ClassicSimilarity], result of: 0.08105676 = score(doc=2168,freq=1.0), product of: 0.2272303 = queryWeight, product of: 1.3698354 = boost 9.131938 = idf(docFreq=12, maxDocs=44218) 0.01816498 = queryNorm 0.35671633 = fieldWeight in 2168, product of: 1.0 = tf(freq=1.0), with freq of: 1.0 = termFreq=1.0 9.131938 = idf(docFreq=12, maxDocs=44218) 0.0390625 = fieldNorm(doc=2168) 0.08558704 = weight(abstract_txt:verborgenen in 2168) [ClassicSimilarity], result of: 0.08558704 = score(doc=2168,freq=1.0), product of: 0.23561996 = queryWeight, product of: 1.3948944 = boost 9.298992 = idf(docFreq=10, maxDocs=44218) 0.01816498 = queryNorm 0.36324188 = fieldWeight in 2168, product of: 1.0 = tf(freq=1.0), with freq of: 1.0 = termFreq=1.0 9.298992 = idf(docFreq=10, maxDocs=44218) 0.0390625 = fieldNorm(doc=2168) 0.2215145 = weight(abstract_txt:bild in 2168) [ClassicSimilarity], result of: 0.2215145 = score(doc=2168,freq=5.0), product of: 0.37462085 = queryWeight, product of: 3.0464346 = boost 6.769634 = idf(docFreq=137, maxDocs=44218) 0.01816498 = queryNorm 0.59130317 = fieldWeight in 2168, product of: 2.236068 = tf(freq=5.0), with freq of: 5.0 = termFreq=5.0 6.769634 = idf(docFreq=137, maxDocs=44218) 0.0390625 = fieldNorm(doc=2168) 0.12 = coord(3/25)