-
Bredack, J.: Automatische Extraktion fachterminologischer Mehrwortbegriffe : ein Verfahrensvergleich (2016)
0.01
0.011088862 = product of:
0.04435545 = sum of:
0.04435545 = weight(_text_:und in 3194) [ClassicSimilarity], result of:
0.04435545 = score(doc=3194,freq=18.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.3673144 = fieldWeight in 3194, product of:
4.2426405 = tf(freq=18.0), with freq of:
18.0 = termFreq=18.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.0390625 = fieldNorm(doc=3194)
0.25 = coord(1/4)
- Abstract
- In dieser Untersuchung wurden zwei Systeme eingesetzt, um MWT aus einer Dokumentkollektion mit fachsprachlichem Bezug (Volltexte des ACL Anthology Reference Corpus) automatisch zu extrahieren. Das thematische Spektrum umfasste alle Bereiche der natürlichen Sprachverarbeitung, im Speziellen die CL als interdisziplinäre Wissenschaft. Ziel war es MWT zu extrahieren, die als potentielle Indexterme im IR Verwendung finden können. Diese sollten auf Konzepte, Methoden, Verfahren und Algorithmen in der CL und angrenzenden Teilgebieten, wie Linguistik und Informatik hinweisen bzw. benennen.
Als Extraktionssysteme wurden der TreeTagger und die Indexierungssoftware Lingo verwendet. Der TreeTagger basiert auf einem statistischen Tagging- und Chunking- Algorithmus, mit dessen Hilfe NPs automatisch identifiziert und extrahiert werden. Er kann für verschiedene Anwendungsszenarien der natürlichen Sprachverarbeitung eingesetzt werden, in erster Linie als POS-Tagger für unterschiedliche Sprachen. Das Indexierungssystem Lingo arbeitet im Gegensatz zum TreeTagger mit elektronischen Wörterbüchern und einem musterbasierten Abgleich. Lingo ist ein auf automatische Indexierung ausgerichtetes System, was eine Vielzahl von Modulen mitliefert, die individuell auf eine bestimmte Aufgabenstellung angepasst und aufeinander abgestimmt werden können. Die unterschiedlichen Verarbeitungsweisen haben sich in den Ergebnismengen beider Systeme deutlich gezeigt. Die gering ausfallenden Übereinstimmungen der Ergebnismengen verdeutlichen die abweichende Funktionsweise und konnte mit einer qualitativen Analyse beispielhaft beschrieben werden. In der vorliegenden Arbeit kann abschließend nicht geklärt werden, welches der beiden Systeme bevorzugt für die Generierung von Indextermen eingesetzt werden sollte.
-
Bredack, J.: Terminologieextraktion von Mehrwortgruppen in kunsthistorischen Fachtexten (2013)
0.01
0.009329008 = product of:
0.03731603 = sum of:
0.03731603 = weight(_text_:und in 1054) [ClassicSimilarity], result of:
0.03731603 = score(doc=1054,freq=26.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.3090199 = fieldWeight in 1054, product of:
5.0990195 = tf(freq=26.0), with freq of:
26.0 = termFreq=26.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.02734375 = fieldNorm(doc=1054)
0.25 = coord(1/4)
- Abstract
- Mit Hilfe eines algorithmisch arbeitenden Verfahrens können Mehrwortgruppen aus elektronisch vorliegenden Texten identifiziert und extrahiert werden. Als Datengrundlage für diese Arbeit dienen kunsthistorische Lexikonartikel des Reallexikons zur Deutschen Kunstgeschichte. Die linguistisch, wörterbuchbasierte Open-Source-Software Lingo wurde in dieser Studie genutzt. Mit Lingo ist es möglich, auf Basis erstellter Wortmuster, bestimmte Wortfolgen aus elektronisch vorliegenden Daten algorithmisch zu identifizieren und zu extrahieren. Die erstellten Wortmuster basieren auf Wortklassen, mit denen die lexikalisierten Einträge in den Wörterbüchern getaggt sind und dadurch näher definiert werden. So wurden individuelle Wortklassen für Fachterminologie, Eigennamen, oder Adjektive vergeben. In der vorliegenden Arbeit werden zusätzlich Funktionswörter in die Musterbildung mit einbezogen. Dafür wurden neue Wortklassen definiert. Funktionswörter bestimmen Artikel, Konjunktionen und Präpositionen. Ziel war es fachterminologische Mehrwortgruppen mit kunsthistorischen Inhalten zu extrahieren unter der gezielten Einbindung von Funktionswörtern. Anhand selbst gebildeter Kriterien, wurden die extrahierten Mehrwortgruppen qualitativ analysiert. Es konnte festgestellt werden, dass die Verwendung von Funktionswörtern fachterminologische Mehrwortgruppen erzeugt, die als potentielle Indexterme weitere Verwendung im Information Retrieval finden können.
Mehrwortgruppen sind als lexikalische Einheit zu betrachten und bestehen aus mindestens zwei miteinander in Verbindung stehenden Begriffen. Durch die Ver-bindung mehrerer Fachwörter transportieren sie in Fachtexten aussagekräftige Informationen. Sie vermitteln eindeutige Informationen, da aus den resultierenden Beziehungen zwischen den in Verbindung stehenden Fachbegriffen die inhaltliche Bedeutung eines Fachtextes ersichtlich wird. Demzufolge ist es sinnvoll, Mehrwort-gruppen aus Fachtexten zu extrahieren, da diese die Inhalte eindeutig repräsentieren. So können Mehrwortgruppen für eine inhaltliche Erschließung genutzt und beispiels-weise als Indexterme im Information Retrieval bereitgestellt werden. Mehrwortgruppen enthalten Informationen eines Textes, die in natürlicher Sprache vorliegen. Zur Extraktion von Informationen eines elektronisch vorliegenden Textes kommen maschinelle Verfahren zum Einsatz, da Sprache Strukturen aufweist, die maschinell verarbeitet werden können. Eine mögliche Methode Mehrwortgruppen innerhalb von elektronisch vorliegenden Fachtexten zu identifizieren und extrahieren ist ein algorithmisches Verfahren. Diese Methode erkennt Wortfolgen durch das Bilden von Wortmustern, aus denen sich eine Mehrwortgruppe in einem Text zusammensetzt. Die Wortmuster repräsentieren somit die einzelnen Bestandteile einer Mehrwortgruppe. Bereits an mathematischen Fachtexten wurde dieses Verfahren untersucht und analysiert. Relevante Mehrwortgruppen, die ein mathematisches Konzept oder mathe-matischen Inhalt repräsentierten, konnten erfolgreich extrahiert werden. Zum Einsatz kam das Indexierungssystem Lingo, mit dessen Programmodul sequencer eine algorithmische Identifizierung und Extraktion von Mehrwortgruppen möglich ist. In der vorliegenden Arbeit wird dieses algorithmische Verfahren unter Einsatz der Software Lingo genutzt, um Mehrwortgruppen aus kunsthistorischen Fachtexten zu extrahieren. Als Datenquelle dienen kunsthistorische Lexikonartikel aus dem Reallexikon zur Deutschen Kunstgeschichte, welches in deutscher Sprache vorliegt. Es wird untersucht, ob positive Ergebnisse im Sinne von fachterminologischen Mehrwort-gruppen mit kunsthistorischen Inhalten erzeugt werden können. Dabei soll zusätzlich die Einbindung von Funktionswörtern innerhalb einer Mehrwortgruppe erfolgen. Funktionswörter definieren Artikel, Konjunktionen und Präpositionen, die für sich alleinstehend keine inhaltstragende Bedeutung besitzen, allerdings innerhalb einer Mehrwortgruppe syntaktische Funktionen erfüllen. Anhand der daraus resultierenden Ergebnisse wird analysiert, ob das Hinzufügen von Funktionswörtern innerhalb einer Mehrwortgruppe zu positiven Ergebnissen führt. Ziel soll es demnach sein, fach-terminologische Mehrwortgruppen mit kunsthistorischen Inhalten zu erzeugen, unter Einbindung von Funktionswörtern. Bei der Extraktion fachterminologischer Mehrwortgruppen wird im Folgenden insbesondere auf die Erstellung von Wortmustern eingegangen, da diese die Basis liefern, mit welchen das Programmmodul sequencer Wortfolgen innerhalb der kunst-historischen Lexikonartikel identifiziert. Eine Einordung der Indexierungsergebnisse erfolgt anhand selbst gebildeter Kriterien, die definieren, was unter einer fach-terminologischen Mehrwortgruppe zu verstehen ist.
- Content
- Beiliegende CD enthält die Arbeitsergebnisse und Hilfsdateien
- Footnote
- Bachelorarbeit, Studiengang Bibliothekswesen, Fakultät für Informations- und Kommunikationswissenschaften, Fachhochschule Köln.
- Imprint
- Köln : Fachhochschule, Fakultät für Informations- und Kommunikationswissenschaften
-
Bredack, J.; Lepsky, K.: Automatische Extraktion von Fachterminologie aus Volltexten (2014)
0.01
0.00591406 = product of:
0.02365624 = sum of:
0.02365624 = weight(_text_:und in 4872) [ClassicSimilarity], result of:
0.02365624 = score(doc=4872,freq=2.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.19590102 = fieldWeight in 4872, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.0625 = fieldNorm(doc=4872)
0.25 = coord(1/4)
- Abstract
- Fachterminologie in wissenschaftlichen Texten liegt häufig in Form von Phrasen oder Mehrwortgruppen vor. Vorgestellt wird ein algorithmisches Verfahren zur Identifikation und Extraktion fachterminologischer Mehrwortgruppen. Besonderer Schwerpunkt ist die Einbindung von Funktionswörtern der deutschen Sprache, um die Extraktion komplexer Mehrwortkonstruktionen zu ermöglichen. Eingesetzt wurde das automatische Indexierungssystem Lingo. Die Ergebnisse für eine Extraktion kunsthistorischer Fachterminologie aus dem Reallexikon zur Deutschen Kunstgeschichte belegen die Tauglichkeit des Verfahrens.