Document (#34866)

Author
Talbot, D.
Title
Durchblick im Infodschungel
Source
http://www.heise.de/tr/Durchblick-im-Infodschungel--/artikel/140629
Year
2009
Content
"Wissenschaftler an der University of Washington haben eine neue Suchmaschinen-Engine geschrieben, die Zusammenhänge und Fakten aus mehr als 500 Millionen einzelner Web-Seiten zusammentragen kann. Das Werkzeug extrahiert dabei Informationen aus Milliarden von Textzeilen, indem die grundlegenden sprachlichen Beziehungen zwischen Wörtern analysiert werden. Experten glauben, dass solche Systeme zur automatischen Informationsgewinnung eines Tages die Grundlage deutlich smarterer Suchmaschinen bilden werden, als sie heute verfügbar sind. Dazu werden die wichtigsten Datenhappen zunächst von einem Algorithmus intern begutachtet und dann intelligent kombiniert. Das Projekt US-Forscher stellt eine deutliche Ausweitung einer zuvor an der gleichen Hochschule entwickelten Technik namens TextRunner dar. Sowohl die Anzahl analysierbarer Seiten als auch die Themengebiete wurden dabei stark erweitert. "TextRunner ist deshalb so bedeutsam, weil es skaliert, ohne dass dabei ein Mensch eingreifen müsste", sagt Peter Norvig, Forschungsdirektor bei Google. Der Internet-Konzern spendete dem Projekt die riesige Datenbank aus einzelnen Web-Seiten, die TextRunner analysiert. "Das System kann Millionen von Beziehungen erkennen und erlernen - und zwar nicht nur jede einzeln. Einen Betreuer braucht die Software nicht, die Informationen werden selbständig ermittelt." Damit unterscheidet sich der Ansatz von anderen semantischen Systemen, die die Hilfe ihrer Programmierer benötigen. Um beispielsweise aus Millionen von Dokumenten die Namen von Personen zu ermitteln, die als Geschäftsführer arbeiten, müsste eine solche Suchmaschine erst trainiert werden - etwa, in der man ihr beibringt, dass Steve Jobs der CEO von Apple, Steve Ballmer der von Microsoft ist. Bei TextRunner sei das nun nicht mehr nötig. (Google arbeitet an ähnlichen Ideen und setzt die Technik bereits im kleineren Maßstab ein.) TextRunners Algorithmen sorgen dafür, dass nicht mehr manuell eingegriffen werden muss. Ein Nutzer kann beispielsweise "tötet Bakterien" eingeben und die Suchmaschine spuckt Seiten aus, die Fakten nennen wie "Chlor tötet Bakterien", "ultraviolettes Licht tötet Bakterien" oder "Hitze tötet Bakterien". Diese von den Forschern als Dreiergruppen bezeichneten Ergebnisse lassen sich dann in einer Vorschau begutachten, bevor man die eigentliche Website betritt.
Der Prototyp von TextRunner bietet noch eine eher karge Benutzerschnittstelle - er ist auch weniger für die Öffentlichkeit als Suchhilfe gedacht denn als Demonstrator, wie es gelingen kann, Informationen aus 500 Millionen Web-Seiten automatisch zu extrahieren. Oren Etzioni, Computerwissenschaftler und Leiter des Projekts, ist stolz auf das Ergebnis: "Was wir hier zeigen, ist die Fähigkeit einer Software, ein rudimentäres Textverständnis zu erzielen - und zwar in einem Maßstab und einer Ausdehnung, die es bislang noch nie gab." Die Fähigkeit, Inhalte und Bedeutungen schnell zu erkennen, entstammt einem Grundmodell von Wortbeziehungen in der englischen Sprache, das Etzioni und sein Team entwickelt haben. Es funktioniert bei nahezu jedem Thema. "Beispielsweise deckt das einfache Muster "Einheit 1, Verb, Einheit 2" den Satz "Edison erfand die Glühbirne" genauso ab wie "Microsoft kaufte Farecast" - und viele andere Satzmodelle auch." TextRunner nutze nun dieses Schablone, um automatisch aus Texten zu lernen, Sätze zu analysieren und solche Dreiergruppen mit hoher Genauigkeit zu erkennen. Die Software besitzt auch Elemente, um aus Anfragen in natürlicher Sprache einen Sinnzusammenhang abzuleiten. Daran arbeiten Etzioni und sein Team gerade. Findet das System dann beispielsweise eine Seite, auf der steht, dass Säugetiere Warmblüter sind und eine andere, auf der zu lesen ist, dass Hunde Säugetiere sind, kann es daraus schließen, dass Hunde vermutlich als Warmblüter herumlaufen. Der Ansatz ähnelt der Technik hinter dem semantischen Suchspezialisten Powerset, den Microsoft im vergangenen Jahr erworben hat. Kurz vor dem Aufkauf legte die Firma ein Werkzeug vor, das solche Fakten aus immerhin rund zwei Millionen Wikipedia-Seiten extrahieren konnte. TextRunner kann nun aber mit Wikipedia genauso umgehen wie mit jedem anderen Angebot, seien es nun Blog-Einträge, Produktkataloge oder Zeitungsartikel. Jon Kleinberg, IT-Forscher der Cornell University, der die University of Washington-Studie kennt, findet, dass das TextRunner-Projekt besonders bei der Skalierung einen großen Fortschritt bedeute. "Die Arbeit steht für einen wachsenden Trend hin zur Schaffung von Suchwerkzeugen, die Teilinformationen, die sie im Web finden, aktiv in einen größeren Zusammenhang bringen.""
Footnote
Vgl. auch: http://www.heise.de/newsticker/Semantische-Suche-ueber-500-Millionen-Web-Dokumente--/meldung/140630.
Theme
Suchmaschinen
Object
TextRunner

Similar documents (content)

  1. Durchblick Mensch : Millimeterdünne Schnitte durch den Körper (1998) 3.66
    3.6583338 = sum of:
      3.6583338 = weight(title_txt:durchblick in 3151) [ClassicSimilarity], result of:
        3.6583338 = fieldWeight in 3151, product of:
          1.0 = tf(freq=1.0), with freq of:
            1.0 = termFreq=1.0
          9.755557 = idf(docFreq=6, maxDocs=44421)
          0.375 = fieldNorm(doc=3151)
    
  2. Hurth, B.: Mailbox-Führer : Kommunikation mit Durchblick - vom ersten Kontakt zur routinierten Anwendung (1993) 2.44
    2.4388893 = sum of:
      2.4388893 = weight(title_txt:durchblick in 6217) [ClassicSimilarity], result of:
        2.4388893 = fieldWeight in 6217, product of:
          1.0 = tf(freq=1.0), with freq of:
            1.0 = termFreq=1.0
          9.755557 = idf(docFreq=6, maxDocs=44421)
          0.25 = fieldNorm(doc=6217)
    
  3. Eckert, K.; Schulz, A.: SABINE: OPAC oder opak? : kein Durchblick beim neuen Online Public Access Catalogue der Universität des Saarlandes (1995) 2.44
    2.4388893 = sum of:
      2.4388893 = weight(title_txt:durchblick in 2892) [ClassicSimilarity], result of:
        2.4388893 = fieldWeight in 2892, product of:
          1.0 = tf(freq=1.0), with freq of:
            1.0 = termFreq=1.0
          9.755557 = idf(docFreq=6, maxDocs=44421)
          0.25 = fieldNorm(doc=2892)
    
  4. Heinen, A.; Müller, M.: SABINE: eine Schönheit im Werden : mehr Durchblick bei der Nutzung des neuen Online Public Access Catalogues der Universität des Saarlandes (1995) 2.13
    2.1340282 = sum of:
      2.1340282 = weight(title_txt:durchblick in 2891) [ClassicSimilarity], result of:
        2.1340282 = fieldWeight in 2891, product of:
          1.0 = tf(freq=1.0), with freq of:
            1.0 = termFreq=1.0
          9.755557 = idf(docFreq=6, maxDocs=44421)
          0.21875 = fieldNorm(doc=2891)
    
  5. Sixtus, M.: Durchblick im Daten-Labyrith : Bescheidener Auftritt, starke Wirkung: Googles "Desktop-Search", das Suchwerkzeug für die heimische Festplatte, im Praxistest (2004) 2.13
    2.1340282 = sum of:
      2.1340282 = weight(title_txt:durchblick in 751) [ClassicSimilarity], result of:
        2.1340282 = fieldWeight in 751, product of:
          1.0 = tf(freq=1.0), with freq of:
            1.0 = termFreq=1.0
          9.755557 = idf(docFreq=6, maxDocs=44421)
          0.21875 = fieldNorm(doc=751)