-
Grün, S.: Bildung von Komposita-Indextermen auf der Basis einer algorithmischen Mehrwortgruppenanalyse mit Lingo (2015)
0.01
0.009290924 = product of:
0.037163697 = sum of:
0.037163697 = weight(_text_:und in 1335) [ClassicSimilarity], result of:
0.037163697 = score(doc=1335,freq=10.0), product of:
0.1131191 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.051038075 = queryNorm
0.328536 = fieldWeight in 1335, product of:
3.1622777 = tf(freq=10.0), with freq of:
10.0 = termFreq=10.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.046875 = fieldNorm(doc=1335)
0.25 = coord(1/4)
- Abstract
- In der deutschen Sprache lassen sich Begriffe durch Komposita und Mehrwortgruppen ausdrücken. Letztere können dabei aber auch als Kompositum selbst ausgedrückt werden und entsprechend auf den gleichen Begriff verweisen. In der nachfolgenden Studie werden Mehrwortgruppen analysiert, die auch Komposita sein können. Ziel der Untersuchung ist es, diese Wortfolgen über Muster zu identifizieren. Analysiert wurden Daten des Karrieremanagers Placement24 GmbH - in Form von Stellenanzeigen. Die Extraktion von Mehrwortgruppen erfolgte algorithmisch und wurde mit der Open-Source Software Lingo durch geführt. Auf der Basis von Erweiterungen bzw. Anpassungen in Wörterbüchern und den darin getaggten Wörtern wurde drei- bis fünfstelligen Kandidaten analysiert. Aus positiv bewerteten Mehrwortgruppen wurden Komposita gebildet. Diese wurden mit den identifizierten Komposita aus den Stellenanzeigen verglichen. Der Vergleich zeigte, dass ein Großteil der neu generierten Komposita nicht durch eine Kompositaidentifizierung erzeugt wurde.
- Content
- Bachelorarbeit, Studiengang Bibliothekswesen, Fakultät für Informations- und Kommunikationswissenschaften, Fachhochschule Köln
-
Grün, S.: Mehrwortbegriffe und Latent Semantic Analysis : Bewertung automatisch extrahierter Mehrwortgruppen mit LSA (2017)
0.01
0.008481415 = product of:
0.03392566 = sum of:
0.03392566 = weight(_text_:und in 3954) [ClassicSimilarity], result of:
0.03392566 = score(doc=3954,freq=12.0), product of:
0.1131191 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.051038075 = queryNorm
0.29991096 = fieldWeight in 3954, product of:
3.4641016 = tf(freq=12.0), with freq of:
12.0 = termFreq=12.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.0390625 = fieldNorm(doc=3954)
0.25 = coord(1/4)
- Abstract
- Die vorliegende Studie untersucht das Potenzial von Mehrwortbegriffen für das Information Retrieval. Zielsetzung der Arbeit ist es, intellektuell positiv bewertete Kandidaten mithilfe des Latent Semantic Analysis (LSA) Verfahren höher zu gewichten, als negativ bewertete Kandidaten. Die positiven Kandidaten sollen demnach bei einem Ranking im Information Retrieval bevorzugt werden. Als Kollektion wurde eine Version der sozialwissenschaftlichen GIRT-Datenbank (German Indexing and Retrieval Testdatabase) eingesetzt. Um Kandidaten für Mehrwortbegriffe zu identifizieren wurde die automatische Indexierung Lingo verwendet. Die notwendigen Kernfunktionalitäten waren Lemmatisierung, Identifizierung von Komposita, algorithmische Mehrworterkennung sowie Gewichtung von Indextermen durch das LSA-Modell. Die durch Lingo erkannten und LSAgewichteten Mehrwortkandidaten wurden evaluiert. Zuerst wurde dazu eine intellektuelle Auswahl von positiven und negativen Mehrwortkandidaten vorgenommen. Im zweiten Schritt der Evaluierung erfolgte die Berechnung der Ausbeute, um den Anteil der positiven Mehrwortkandidaten zu erhalten. Im letzten Schritt der Evaluierung wurde auf der Basis der R-Precision berechnet, wie viele positiv bewerteten Mehrwortkandidaten es an der Stelle k des Rankings geschafft haben. Die Ausbeute der positiven Mehrwortkandidaten lag bei durchschnittlich ca. 39%, während die R-Precision einen Durchschnittswert von 54% erzielte. Das LSA-Modell erzielt ein ambivalentes Ergebnis mit positiver Tendenz.
- Footnote
- Masterarbeit, Studiengang Informationswissenschaft und Sprachtechnologie, Institut für Sprache und Information, Philosophische Fakultät, Heinrich-Heine-Universität Düsseldorf
- Imprint
- Düsseldorf : Heinrich-Heine-Universität / Philosophische Fakultät / Institut für Sprache und Information
-
Grün, S.; Poley, C: Statistische Analysen von Semantic Entities aus Metadaten- und Volltextbeständen von German Medical Science (2017)
0.00
0.0041550277 = product of:
0.01662011 = sum of:
0.01662011 = weight(_text_:und in 5032) [ClassicSimilarity], result of:
0.01662011 = score(doc=5032,freq=2.0), product of:
0.1131191 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.051038075 = queryNorm
0.14692576 = fieldWeight in 5032, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.046875 = fieldNorm(doc=5032)
0.25 = coord(1/4)