Document (#37332)

Author
RWI/PH
Title
Auf der Suche nach dem entscheidenden Wort : die Häufung bestimmter Wörter innerhalb eines Textes macht diese zu Schlüsselwörtern
Issue
[11. Juli 2012].
Source
http://www.mpg.de/5894319/statistische_Textanalyse?filter_order=L
Year
2012
Abstract
Der Mensch kann komplexe Sachverhalte in eine eindimensionale Abfolge von Buchstaben umwandeln und niederschreiben. Dabei dienen Schlüsselwörter dazu, den Inhalt des Textes zu vermitteln. Wie Buchstaben und Wörtern mit dem Thema eines Textes zusammenhängen, haben Eduardo Altmann und seine Kollegen vom Max-Planck-Institut für die Physik komplexer Systeme und der Universität Bologna mit Hilfe von statistischen Methoden untersucht. Dabei haben sie herausgefunden, dass Schlüsselwörter nicht dadurch gekennzeichnet sind, dass sie im ganzen Text besonders häufig vorkommen, sondern nur an bestimmten Stellen vermehrt zu finden sind. Außerdem gibt es Beziehungen zwischen weit entfernten Textabschnitten, in der Form, dass dieselben Wörter und Buchstaben bevorzugt verwendet werden.
Content
"Die Dresdner Wissenschaftler haben die semantischen Eigenschaften von Texten mathematisch untersucht, indem sie zehn verschiedene englische Texte in unterschiedlichen Formen kodierten. Dazu zählt unter anderem die englische Ausgabe von Leo Tolstois "Krieg und Frieden". Beispielsweise übersetzten die Forscher Buchstaben innerhalb eines Textes in eine Binär-Sequenz. Dazu ersetzten sie alle Vokale durch eine Eins und alle Konsonanten durch eine Null. Mit Hilfe weiterer mathematischer Funktionen beleuchteten die Wissenschaftler dabei verschiedene Ebenen des Textes, also sowohl einzelne Vokale, Buchstaben als auch ganze Wörter, die in verschiedenen Formen kodiert wurden. Innerhalb des ganzen Textes lassen sich so wiederkehrende Muster finden. Diesen Zusammenhang innerhalb des Textes bezeichnet man als Langzeitkorrelation. Diese gibt an, ob zwei Buchstaben an beliebig weit voneinander entfernten Textstellen miteinander in Verbindung stehen - beispielsweise gibt es wenn wir an einer Stelle einen Buchstaben "K" finden, eine messbare höhere Wahrscheinlichkeit den Buchstaben "K" einige Seiten später nochmal zu finden. "Es ist zu erwarten, dass wenn es in einem Buch an einer Stelle um Krieg geht, die Wahrscheinlichkeit hoch ist das Wort Krieg auch einige Seiten später zu finden. Überraschend ist es, dass wir die hohe Wahrscheinlichkeit auch auf der Buchstabenebene finden", so Altmann.
Schlüsselwörter häufen sich in einzelnen Textpassagen Dabei haben sie die Langzeitkorrelation sowohl zwischen einzelnen Buchstaben, als auch innerhalb höherer sprachlicher Ebenen wie Wörtern gefunden. Innerhalb einzelner Ebenen bleibt die Korrelation dabei erhalten, wenn man verschiedene Texte betrachtet. "Viel interessanter ist es für uns zu überprüfen, wie die Korrelation sich zwischen den Ebenen ändert", sagt Altmann. Die Langzeitkorrelation erlaubt Rückschlüsse, inwieweit einzelne Wörter mit einem Thema in Verbindungen stehen. "Auch die Verbindung zwischen einem Wort und den Buchstaben, aus denen es sich zusammensetzt, lässt sich so analysieren", so Altmann. Darüber hinaus untersuchten die Wissenschaftler auch die sogenannte "Burstiness", die beschreibt, ob ein Zeichenmuster in einer Textpassage vermehrt zu finden ist. Sie zeigt also beispielsweise an, ob ein Wort in einem bestimmten Abschnitt gehäuft vorkommt. Je häufiger ein bestimmtes Wort in einer Passage verwendet wird, desto wahrscheinlicher ist es, dass diese repräsentativ für ein bestimmtes Thema ist. Die Wissenschaftler zeigten, dass bestimmte Wörter zwar im ganzen Text immer wieder vorkommen, aber nicht in einem bestimmten Abschnitt verstärkt zu finden sind. Diese Wörter weisen zwar eine Langzeitkorrelation auf, stehen aber nicht in einer engen Verbindung mit dem Thema. "Das beste Beispiel dafür sind Artikel. Sie kommen in jedem Text sehr oft vor, sind aber nicht entscheidend um ein bestimmtes Thema zu vermitteln", so Altmann.
Die statistische Textanalyse funktioniert unabhängig von der Sprache Während sowohl Buchstaben als auch Wörter Langzeit-korreliert sind, kommen Buchstaben nur selten an bestimmten Stellen eines Textes gehäuft vor. "Ein Buchstabe ist eben nur sehr selten so eng mit einem Thema verknüpft wie das Wort zu dem er einen Teil beiträgt. Buchstaben sind sozusagen flexibler einsetzbar", sagt Altmann. Ein "a" beispielsweise kann zu einer ganzen Reihe von Wörtern beitragen, die nicht mit demselben Thema in Verbindung stehen. Mit Hilfe der statistischen Analyse von Texten ist es den Forschern gelungen, die prägenden Wörter eines Textes auf einfache Weise zu ermitteln. "Dabei ist es vollkommen egal, in welcher Sprache ein Text geschrieben ist. Es geht nur noch um die Geschichte und nicht um sprachspezifische Regeln", sagt Altmann. Die Ergebnisse könnten zukünftig zur Verbesserung von Internetsuchmaschinen beitragen, aber auch bei Textanalysen und der Suche nach Plagiaten helfen."
Footnote
Pressemitteilung zum Artikel: Eduardo G. Altmann, Giampaolo Cristadoro and Mirko Degli Esposti: On the origin of long-range correlations in texts. In: Proceedings of the National Academy of Sciences, 2. Juli 2012. DOI: 10.1073/pnas.1117723109.
Theme
Computerlinguistik

Similar documents (content)

  1. Albrecht, C.: ¬Die Entdeckung der Weitschweifigkeit : Über das Glück, mit Markow-Ketten zu rasseln: Die Schriften Claude E. Shannons (2001) 0.14
    0.1390144 = sum of:
      0.1390144 = product of:
        0.43442 = sum of:
          0.013158833 = weight(abstract_txt:sind in 6643) [ClassicSimilarity], result of:
            0.013158833 = score(doc=6643,freq=3.0), product of:
              0.062039617 = queryWeight, product of:
                3.9186604 = idf(docFreq=2398, maxDocs=44421)
                0.015831843 = queryNorm
              0.21210371 = fieldWeight in 6643, product of:
                1.7320508 = tf(freq=3.0), with freq of:
                  3.0 = termFreq=3.0
                3.9186604 = idf(docFreq=2398, maxDocs=44421)
                0.03125 = fieldNorm(doc=6643)
          0.032473743 = weight(abstract_txt:statistischen in 6643) [ClassicSimilarity], result of:
            0.032473743 = score(doc=6643,freq=1.0), product of:
              0.1296909 = queryWeight, product of:
                1.0223632 = boost
                8.0125885 = idf(docFreq=39, maxDocs=44421)
                0.015831843 = queryNorm
              0.2503934 = fieldWeight in 6643, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                8.0125885 = idf(docFreq=39, maxDocs=44421)
                0.03125 = fieldNorm(doc=6643)
          0.03654276 = weight(abstract_txt:wörtern in 6643) [ClassicSimilarity], result of:
            0.03654276 = score(doc=6643,freq=1.0), product of:
              0.14031006 = queryWeight, product of:
                1.0633956 = boost
                8.334172 = idf(docFreq=28, maxDocs=44421)
                0.015831843 = queryNorm
              0.26044288 = fieldWeight in 6643, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                8.334172 = idf(docFreq=28, maxDocs=44421)
                0.03125 = fieldNorm(doc=6643)
          0.024223836 = weight(abstract_txt:eines in 6643) [ClassicSimilarity], result of:
            0.024223836 = score(doc=6643,freq=4.0), product of:
              0.084665515 = queryWeight, product of:
                1.1682041 = boost
                4.577795 = idf(docFreq=1240, maxDocs=44421)
                0.015831843 = queryNorm
              0.2861122 = fieldWeight in 6643, product of:
                2.0 = tf(freq=4.0), with freq of:
                  4.0 = termFreq=4.0
                4.577795 = idf(docFreq=1240, maxDocs=44421)
                0.03125 = fieldNorm(doc=6643)
          0.0127910655 = weight(abstract_txt:haben in 6643) [ClassicSimilarity], result of:
            0.0127910655 = score(doc=6643,freq=1.0), product of:
              0.0878016 = queryWeight, product of:
                1.189643 = boost
                4.661807 = idf(docFreq=1140, maxDocs=44421)
                0.015831843 = queryNorm
              0.14568147 = fieldWeight in 6643, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                4.661807 = idf(docFreq=1140, maxDocs=44421)
                0.03125 = fieldNorm(doc=6643)
          0.012989209 = weight(abstract_txt:dabei in 6643) [ClassicSimilarity], result of:
            0.012989209 = score(doc=6643,freq=1.0), product of:
              0.08870602 = queryWeight, product of:
                1.1957544 = boost
                4.6857553 = idf(docFreq=1113, maxDocs=44421)
                0.015831843 = queryNorm
              0.14642985 = fieldWeight in 6643, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                4.6857553 = idf(docFreq=1113, maxDocs=44421)
                0.03125 = fieldNorm(doc=6643)
          0.057104252 = weight(abstract_txt:wörter in 6643) [ClassicSimilarity], result of:
            0.057104252 = score(doc=6643,freq=1.0), product of:
              0.23805478 = queryWeight, product of:
                1.9588623 = boost
                7.676116 = idf(docFreq=55, maxDocs=44421)
                0.015831843 = queryNorm
              0.23987862 = fieldWeight in 6643, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                7.676116 = idf(docFreq=55, maxDocs=44421)
                0.03125 = fieldNorm(doc=6643)
          0.24513628 = weight(abstract_txt:buchstaben in 6643) [ClassicSimilarity], result of:
            0.24513628 = score(doc=6643,freq=5.0), product of:
              0.42093018 = queryWeight, product of:
                3.1901867 = boost
                8.334172 = idf(docFreq=28, maxDocs=44421)
                0.015831843 = queryNorm
              0.582368 = fieldWeight in 6643, product of:
                2.236068 = tf(freq=5.0), with freq of:
                  5.0 = termFreq=5.0
                8.334172 = idf(docFreq=28, maxDocs=44421)
                0.03125 = fieldNorm(doc=6643)
        0.32 = coord(8/25)
    
  2. Dahmen, E.: Klassifikation als Ordnundssystem im elektronischen Pressearchiv (2003) 0.13
    0.12982753 = sum of:
      0.12982753 = product of:
        0.54094803 = sum of:
          0.011395885 = weight(abstract_txt:sind in 2513) [ClassicSimilarity], result of:
            0.011395885 = score(doc=2513,freq=1.0), product of:
              0.062039617 = queryWeight, product of:
                3.9186604 = idf(docFreq=2398, maxDocs=44421)
                0.015831843 = queryNorm
              0.18368721 = fieldWeight in 2513, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                3.9186604 = idf(docFreq=2398, maxDocs=44421)
                0.046875 = fieldNorm(doc=2513)
          0.054814138 = weight(abstract_txt:wörtern in 2513) [ClassicSimilarity], result of:
            0.054814138 = score(doc=2513,freq=1.0), product of:
              0.14031006 = queryWeight, product of:
                1.0633956 = boost
                8.334172 = idf(docFreq=28, maxDocs=44421)
                0.015831843 = queryNorm
              0.39066434 = fieldWeight in 2513, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                8.334172 = idf(docFreq=28, maxDocs=44421)
                0.046875 = fieldNorm(doc=2513)
          0.018167878 = weight(abstract_txt:eines in 2513) [ClassicSimilarity], result of:
            0.018167878 = score(doc=2513,freq=1.0), product of:
              0.084665515 = queryWeight, product of:
                1.1682041 = boost
                4.577795 = idf(docFreq=1240, maxDocs=44421)
                0.015831843 = queryNorm
              0.21458414 = fieldWeight in 2513, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                4.577795 = idf(docFreq=1240, maxDocs=44421)
                0.046875 = fieldNorm(doc=2513)
          0.12113641 = weight(abstract_txt:wörter in 2513) [ClassicSimilarity], result of:
            0.12113641 = score(doc=2513,freq=2.0), product of:
              0.23805478 = queryWeight, product of:
                1.9588623 = boost
                7.676116 = idf(docFreq=55, maxDocs=44421)
                0.015831843 = queryNorm
              0.5088594 = fieldWeight in 2513, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                7.676116 = idf(docFreq=55, maxDocs=44421)
                0.046875 = fieldNorm(doc=2513)
          0.1644424 = weight(abstract_txt:buchstaben in 2513) [ClassicSimilarity], result of:
            0.1644424 = score(doc=2513,freq=1.0), product of:
              0.42093018 = queryWeight, product of:
                3.1901867 = boost
                8.334172 = idf(docFreq=28, maxDocs=44421)
                0.015831843 = queryNorm
              0.39066434 = fieldWeight in 2513, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                8.334172 = idf(docFreq=28, maxDocs=44421)
                0.046875 = fieldNorm(doc=2513)
          0.17099129 = weight(abstract_txt:textes in 2513) [ClassicSimilarity], result of:
            0.17099129 = score(doc=2513,freq=1.0), product of:
              0.4320329 = queryWeight, product of:
                3.2319863 = boost
                8.443371 = idf(docFreq=25, maxDocs=44421)
                0.015831843 = queryNorm
              0.395783 = fieldWeight in 2513, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                8.443371 = idf(docFreq=25, maxDocs=44421)
                0.046875 = fieldNorm(doc=2513)
        0.24 = coord(6/25)
    
  3. Meyer, R.: Allein, es wär' so schön gewesen : Der Copernic Summarzier kann Internettexte leider nicht befriedigend und sinnvoll zusammenfassen (2002) 0.12
    0.11628701 = sum of:
      0.11628701 = product of:
        0.4845292 = sum of:
          0.021234976 = weight(abstract_txt:sind in 1648) [ClassicSimilarity], result of:
            0.021234976 = score(doc=1648,freq=5.0), product of:
              0.062039617 = queryWeight, product of:
                3.9186604 = idf(docFreq=2398, maxDocs=44421)
                0.015831843 = queryNorm
              0.3422809 = fieldWeight in 1648, product of:
                2.236068 = tf(freq=5.0), with freq of:
                  5.0 = termFreq=5.0
                3.9186604 = idf(docFreq=2398, maxDocs=44421)
                0.0390625 = fieldNorm(doc=1648)
          0.015988832 = weight(abstract_txt:haben in 1648) [ClassicSimilarity], result of:
            0.015988832 = score(doc=1648,freq=1.0), product of:
              0.0878016 = queryWeight, product of:
                1.189643 = boost
                4.661807 = idf(docFreq=1140, maxDocs=44421)
                0.015831843 = queryNorm
              0.18210185 = fieldWeight in 1648, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                4.661807 = idf(docFreq=1140, maxDocs=44421)
                0.0390625 = fieldNorm(doc=1648)
          0.01623651 = weight(abstract_txt:dabei in 1648) [ClassicSimilarity], result of:
            0.01623651 = score(doc=1648,freq=1.0), product of:
              0.08870602 = queryWeight, product of:
                1.1957544 = boost
                4.6857553 = idf(docFreq=1113, maxDocs=44421)
                0.015831843 = queryNorm
              0.18303731 = fieldWeight in 1648, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                4.6857553 = idf(docFreq=1113, maxDocs=44421)
                0.0390625 = fieldNorm(doc=1648)
          0.07138032 = weight(abstract_txt:wörter in 1648) [ClassicSimilarity], result of:
            0.07138032 = score(doc=1648,freq=1.0), product of:
              0.23805478 = queryWeight, product of:
                1.9588623 = boost
                7.676116 = idf(docFreq=55, maxDocs=44421)
                0.015831843 = queryNorm
              0.2998483 = fieldWeight in 1648, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                7.676116 = idf(docFreq=55, maxDocs=44421)
                0.0390625 = fieldNorm(doc=1648)
          0.21719582 = weight(abstract_txt:schlüsselwörter in 1648) [ClassicSimilarity], result of:
            0.21719582 = score(doc=1648,freq=2.0), product of:
              0.39674875 = queryWeight, product of:
                2.528851 = boost
                9.909708 = idf(docFreq=5, maxDocs=44421)
                0.015831843 = queryNorm
              0.5474392 = fieldWeight in 1648, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                9.909708 = idf(docFreq=5, maxDocs=44421)
                0.0390625 = fieldNorm(doc=1648)
          0.14249274 = weight(abstract_txt:textes in 1648) [ClassicSimilarity], result of:
            0.14249274 = score(doc=1648,freq=1.0), product of:
              0.4320329 = queryWeight, product of:
                3.2319863 = boost
                8.443371 = idf(docFreq=25, maxDocs=44421)
                0.015831843 = queryNorm
              0.32981917 = fieldWeight in 1648, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                8.443371 = idf(docFreq=25, maxDocs=44421)
                0.0390625 = fieldNorm(doc=1648)
        0.24 = coord(6/25)
    
  4. Nissen, K.; Reuter, M.: ¬Die neuen Leiden der jungen Wörter : Das aktuelle Wörterbuch zur Rächtschraiprehvorm (1999) 0.11
    0.10547486 = sum of:
      0.10547486 = product of:
        0.87895715 = sum of:
          0.030389024 = weight(abstract_txt:sind in 3859) [ClassicSimilarity], result of:
            0.030389024 = score(doc=3859,freq=1.0), product of:
              0.062039617 = queryWeight, product of:
                3.9186604 = idf(docFreq=2398, maxDocs=44421)
                0.015831843 = queryNorm
              0.48983255 = fieldWeight in 3859, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                3.9186604 = idf(docFreq=2398, maxDocs=44421)
                0.125 = fieldNorm(doc=3859)
          0.22841701 = weight(abstract_txt:wörter in 3859) [ClassicSimilarity], result of:
            0.22841701 = score(doc=3859,freq=1.0), product of:
              0.23805478 = queryWeight, product of:
                1.9588623 = boost
                7.676116 = idf(docFreq=55, maxDocs=44421)
                0.015831843 = queryNorm
              0.9595145 = fieldWeight in 3859, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                7.676116 = idf(docFreq=55, maxDocs=44421)
                0.125 = fieldNorm(doc=3859)
          0.6201511 = weight(abstract_txt:buchstaben in 3859) [ClassicSimilarity], result of:
            0.6201511 = score(doc=3859,freq=2.0), product of:
              0.42093018 = queryWeight, product of:
                3.1901867 = boost
                8.334172 = idf(docFreq=28, maxDocs=44421)
                0.015831843 = queryNorm
              1.4732873 = fieldWeight in 3859, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                8.334172 = idf(docFreq=28, maxDocs=44421)
                0.125 = fieldNorm(doc=3859)
        0.12 = coord(3/25)
    
  5. Maas, H.-D.: Indexieren mit AUTINDEX (2006) 0.10
    0.10398891 = sum of:
      0.10398891 = product of:
        0.4332871 = sum of:
          0.02326175 = weight(abstract_txt:sind in 77) [ClassicSimilarity], result of:
            0.02326175 = score(doc=77,freq=6.0), product of:
              0.062039617 = queryWeight, product of:
                3.9186604 = idf(docFreq=2398, maxDocs=44421)
                0.015831843 = queryNorm
              0.37494993 = fieldWeight in 77, product of:
                2.4494898 = tf(freq=6.0), with freq of:
                  6.0 = termFreq=6.0
                3.9186604 = idf(docFreq=2398, maxDocs=44421)
                0.0390625 = fieldNorm(doc=77)
          0.015139897 = weight(abstract_txt:eines in 77) [ClassicSimilarity], result of:
            0.015139897 = score(doc=77,freq=1.0), product of:
              0.084665515 = queryWeight, product of:
                1.1682041 = boost
                4.577795 = idf(docFreq=1240, maxDocs=44421)
                0.015831843 = queryNorm
              0.17882012 = fieldWeight in 77, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                4.577795 = idf(docFreq=1240, maxDocs=44421)
                0.0390625 = fieldNorm(doc=77)
          0.01623651 = weight(abstract_txt:dabei in 77) [ClassicSimilarity], result of:
            0.01623651 = score(doc=77,freq=1.0), product of:
              0.08870602 = queryWeight, product of:
                1.1957544 = boost
                4.6857553 = idf(docFreq=1113, maxDocs=44421)
                0.015831843 = queryNorm
              0.18303731 = fieldWeight in 77, product of:
                1.0 = tf(freq=1.0), with freq of:
                  1.0 = termFreq=1.0
                4.6857553 = idf(docFreq=1113, maxDocs=44421)
                0.0390625 = fieldNorm(doc=77)
          0.030897293 = weight(abstract_txt:dass in 77) [ClassicSimilarity], result of:
            0.030897293 = score(doc=77,freq=2.0), product of:
              0.12376332 = queryWeight, product of:
                1.7298445 = boost
                4.5191154 = idf(docFreq=1315, maxDocs=44421)
                0.015831843 = queryNorm
              0.24964821 = fieldWeight in 77, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                4.5191154 = idf(docFreq=1315, maxDocs=44421)
                0.0390625 = fieldNorm(doc=77)
          0.10094701 = weight(abstract_txt:wörter in 77) [ClassicSimilarity], result of:
            0.10094701 = score(doc=77,freq=2.0), product of:
              0.23805478 = queryWeight, product of:
                1.9588623 = boost
                7.676116 = idf(docFreq=55, maxDocs=44421)
                0.015831843 = queryNorm
              0.4240495 = fieldWeight in 77, product of:
                1.4142135 = tf(freq=2.0), with freq of:
                  2.0 = termFreq=2.0
                7.676116 = idf(docFreq=55, maxDocs=44421)
                0.0390625 = fieldNorm(doc=77)
          0.24680465 = weight(abstract_txt:textes in 77) [ClassicSimilarity], result of:
            0.24680465 = score(doc=77,freq=3.0), product of:
              0.4320329 = queryWeight, product of:
                3.2319863 = boost
                8.443371 = idf(docFreq=25, maxDocs=44421)
                0.015831843 = queryNorm
              0.57126355 = fieldWeight in 77, product of:
                1.7320508 = tf(freq=3.0), with freq of:
                  3.0 = termFreq=3.0
                8.443371 = idf(docFreq=25, maxDocs=44421)
                0.0390625 = fieldNorm(doc=77)
        0.24 = coord(6/25)