Search (1 results, page 1 of 1)

  • × author_ss:"Apfelböck, H."
  1. Apfelböck, H.; Kroschel, A.: Wie Sie Web-Inhalte einsammeln & für sich nutzen : Know-how: Alles über Scraping (2008) 0.01
    0.0072432146 = product of:
      0.028972859 = sum of:
        0.028972859 = weight(_text_:und in 4835) [ClassicSimilarity], result of:
          0.028972859 = score(doc=4835,freq=12.0), product of:
            0.12075608 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.054483794 = queryNorm
            0.23992877 = fieldWeight in 4835, product of:
              3.4641016 = tf(freq=12.0), with freq of:
                12.0 = termFreq=12.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.03125 = fieldNorm(doc=4835)
      0.25 = coord(1/4)
    
    Abstract
    Das Web bietet eine enorme Vielfalt an Wissen, Unterhaltung und Information. Mit einfachen Mitteln können Sie diese Inhalte abgreifen und für Ihre eigenen Zwecke nutzen. Wir sagen, wie's funktioniert.
    Content
    Ein neuer Name für Methoden, die das Web seit Jahren kennt und die sich zunehmend verbreiten: Scraping. Im Prinzip geht es beim "Abkratzen" von Web-Seiten darum, dynamische Daten von einer Site abzuholen und in einer Anwendung oder einer eigenen Seite neu aufzubereiten. Anders als beim Abgreifen statischer Inhalte mit Tools wie Curl oder Wget liegt der Fokus hier auf dynamisch wechselnden Inhalten. Dabei bildet das intelligente Zusammenmischen von bereits bestehenden Web-Daten (Google, Flickr, Youtube, Amazon) auf neuen Sites ("Mashups") den professionellen Aspekt von Scraping. Das Motiv ist altbekannt: Fremde Inhalte nutzen Unser Beitrag skizziert einige Beispiele, wie auch normale Anwender von Scraping-Methoden profitieren können. Denn das Bestreben, Web-Inhalte anders zu mischen, als es der ursprüngliche Autor vorsah, ist nicht neu: Kaum hatte Netscape Frames erfunden, gab es Web-Autoren, die fremde Web-Seiten in die eigene Navigation einbauten. Als Gegenmaßnahme führten deren Autoren zuweilen Schaltflächen oder Links ein, mit dem man sich "aus einem Frame befreien" konnte, also die Seite in einem eigenen Fenster öffnen. Der Inhalt erscheint dann also wieder auf der Originalseite. Andere Einsatzgebiete bestanden etwa darin, Suchformulare in die eigene Homepage einzubinden. Das sehen die Betreiber der zugehörigen Such maschinen wiederum recht gerne und stellen den zugehörigen Code meist unkompliziert in den Hilfe-Seiten bereit.
    Bei diesen Beispielen handelt es sich um eine Vorform von Scraping: Ahnlich wie heim Kommandozeilenprogramm Wget, das ganze Websites rekursiv auf die Platte ziehen kann, sind diese Methoden auf Link-Verfolgung durch komplette URLs angewiesen. Und diese Technik hat ihre Grenzen: Dynamisch generierten Inhalt finden Sie weder im Google-Cache noch können Sie diesen erzeugen, wenn Sie eine Web-Seite per URL in einen Ihrer Frames einbinden. Beim Scraping geht es darum, dynamische Inhalte zu verwenden, die Sie nicht direkt per URL erreichen können, sondern die erst per Script nach dem Ausfüllen von Formularen erzeugt werden. So enthält etwa der "Embed"-Code eines Youtube-Videos dessen komplette URL. Diese alleine würde immer auf die Youtube-Seite führen - erst durch Scraping erreichen Sie, nur den Player einzubinden.