-
Lobin, H: Computerlinguistik und Texttechnologie (2010)
0.01
0.011735349 = product of:
0.046941396 = sum of:
0.046941396 = weight(_text_:und in 564) [ClassicSimilarity], result of:
0.046941396 = score(doc=564,freq=14.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.38872904 = fieldWeight in 564, product of:
3.7416575 = tf(freq=14.0), with freq of:
14.0 = termFreq=14.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.046875 = fieldNorm(doc=564)
0.25 = coord(1/4)
- Abstract
- Computerlinguistik (die Verarbeitung von Sprache mit dem Computer) und Texttechnologie (die automatisierte Handhabung elektronischer Texte) haben im letzten Jahrzehnt unterschiedliche Richtungen eingeschlagen. Beide Disziplinen speisen sich jedoch aus der gleichen Quelle: der formalen Grammatik. Deshalb ist eine gemeinsame Darstellung sinnvoll. Der Bezug auf die gemeinsamen Grundlagen und die kontrastierende Gegenüberstellung einzelner Teilbereiche fördern das Verständnis der jeweils anderen Disziplin und eröffnen interessante Querbezüge. Erstmals wird die Verknüpfung von Computerlinguistik und Texttechnologie mit dieser Einführung in knapper Form systematisch vollzogen, was sie insbesondere für Module im Bachelor-Studium geeignet macht.
- BK
- 18.00 Einzelne Sprachen und Literaturen allgemein
- Classification
- 18.00 Einzelne Sprachen und Literaturen allgemein
-
Lorenz, S.: Konzeption und prototypische Realisierung einer begriffsbasierten Texterschließung (2006)
0.01
0.011735349 = product of:
0.046941396 = sum of:
0.046941396 = weight(_text_:und in 1746) [ClassicSimilarity], result of:
0.046941396 = score(doc=1746,freq=14.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.38872904 = fieldWeight in 1746, product of:
3.7416575 = tf(freq=14.0), with freq of:
14.0 = termFreq=14.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.046875 = fieldNorm(doc=1746)
0.25 = coord(1/4)
- Abstract
- Im Rahmen dieser Arbeit wird eine Vorgehensweise entwickelt, die die Fixierung auf das Wort und die damit verbundenen Schwächen überwindet. Sie gestattet die Extraktion von Informationen anhand der repräsentierten Begriffe und bildet damit die Basis einer inhaltlichen Texterschließung. Die anschließende prototypische Realisierung dient dazu, die Konzeption zu überprüfen sowie ihre Möglichkeiten und Grenzen abzuschätzen und zu bewerten. Arbeiten zum Information Extraction widmen sich fast ausschließlich dem Englischen, wobei insbesondere im Bereich der Named Entities sehr gute Ergebnisse erzielt werden. Deutlich schlechter sehen die Resultate für weniger regelmäßige Sprachen wie beispielsweise das Deutsche aus. Aus diesem Grund sowie praktischen Erwägungen wie insbesondere der Vertrautheit des Autors damit, soll diese Sprache primär Gegenstand der Untersuchungen sein. Die Lösung von einer engen Termorientierung bei gleichzeitiger Betonung der repräsentierten Begriffe legt nahe, dass nicht nur die verwendeten Worte sekundär werden sondern auch die verwendete Sprache. Um den Rahmen dieser Arbeit nicht zu sprengen wird bei der Untersuchung dieses Punktes das Augenmerk vor allem auf die mit unterschiedlichen Sprachen verbundenen Schwierigkeiten und Besonderheiten gelegt.
- Content
- Dissertation an der Universität Trier - Fachbereich IV - zur Erlangung der Würde eines Doktors der Wirtschafts- und Sozialwissenschaften. Vgl.: http://ubt.opus.hbz-nrw.de/volltexte/2006/377/pdf/LorenzSaschaDiss.pdf.
-
Rahmstorf, G.: Wortmodell und Begriffssprache als Basis des semantischen Retrievals (2000)
0.01
0.011571211 = product of:
0.046284843 = sum of:
0.046284843 = weight(_text_:und in 5484) [ClassicSimilarity], result of:
0.046284843 = score(doc=5484,freq=10.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.38329202 = fieldWeight in 5484, product of:
3.1622777 = tf(freq=10.0), with freq of:
10.0 = termFreq=10.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.0546875 = fieldNorm(doc=5484)
0.25 = coord(1/4)
- Abstract
- Der heutigen Retrievaltechnik wird das Projekt eines semantisch basierten Suchsystems gegenübergestellt. Es soll genauer und vollständiger arbeiten sowie systematische Zusammenhänge zwischen Themen unterstützen. Bei diesem Ansatz wird ein umfassendes Wörterbuch mit einer einfachen begrifflichen Darstellung der Wortbedeutungen benötigt. Das Wortmodell bildet Wort, Wortmerkmale, Lemma, Wortbedeutungen (Lesarten), Lesartenmerkmale und Begriffe ab. Begriffe sind formale Ausdrücke einer Begriffssprache. Entsprechend dieser Differenzierung wird Lenunaindexierung, Lesartenindexierung und Begriffsindexierung unterschieden. Begriffe werden mit dem Programm Concepto grafisch konstruiert und erfasst
-
Tartakovski, O.; Shramko, M.: Implementierung eines Werkzeugs zur Sprachidentifikation in mono- und multilingualen Texten (2006)
0.01
0.011571211 = product of:
0.046284843 = sum of:
0.046284843 = weight(_text_:und in 5978) [ClassicSimilarity], result of:
0.046284843 = score(doc=5978,freq=10.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.38329202 = fieldWeight in 5978, product of:
3.1622777 = tf(freq=10.0), with freq of:
10.0 = termFreq=10.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.0546875 = fieldNorm(doc=5978)
0.25 = coord(1/4)
- Abstract
- Die Identifikation der Sprache bzw. der Sprachen in Textdokumenten ist einer der wichtigsten Schritte maschineller Textverarbeitung für das Information Retrieval. Der vorliegende Artikel stellt Langldent vor, ein System zur Sprachidentifikation von mono- und multilingualen elektronischen Textdokumenten. Das System bietet sowohl eine Auswahl von gängigen Algorithmen für die Sprachidentifikation monolingualer Textdokumente als auch einen neuen Algorithmus für die Sprachidentifikation multilingualer Textdokumente.
- Source
- Effektive Information Retrieval Verfahren in Theorie und Praxis: ausgewählte und erweiterte Beiträge des Vierten Hildesheimer Evaluierungs- und Retrievalworkshop (HIER 2005), Hildesheim, 20.7.2005. Hrsg.: T. Mandl u. C. Womser-Hacker
-
Schönbächler, E.; Strasser, T.; Himpsl-Gutermann, K.: Vom Chat zum Check : Informationskompetenz mit ChatGPT steigern (2023)
0.01
0.011571211 = product of:
0.046284843 = sum of:
0.046284843 = weight(_text_:und in 924) [ClassicSimilarity], result of:
0.046284843 = score(doc=924,freq=10.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.38329202 = fieldWeight in 924, product of:
3.1622777 = tf(freq=10.0), with freq of:
10.0 = termFreq=10.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.0546875 = fieldNorm(doc=924)
0.25 = coord(1/4)
- Abstract
- Der Beitrag greift den aktuellen Diskurs um die KI-Anwendung ChatGPT und deren Bedeutung in Schule und Hochschule auf. Dabei werden durch einen Überblick über verschiedene Assistenzsysteme, die auf Künstlicher Intelligenz beruhen, Grundlagen und Unterschiede herausgearbeitet. Der Bereich der Chatbots wird näher beleuchtet, die beiden grundlegenden Arten des regelbasierten Chatbots und des Machine Learning Bots werden anhand von anschaulichen Beispielen praxisnah erklärt. Schließlich wird herausgearbeitet, dass Informationskompetenz als Schlüsselkompetenz des 21. Jahrhunderts auch die wesentliche Grundlage dafür ist, im Bildungsbereich konstruktiv mit KI-Systemen wie ChatGPT umzugehen und die wesentlichen Funktionsmechanismen zu verstehen. Ein Unterrichtsentwurf zum Thema "Biene" schließt den Praxisbeitrag ab.
-
Computerlinguistik und Sprachtechnologie : Eine Einführung (2010)
0.01
0.011452528 = product of:
0.04581011 = sum of:
0.04581011 = weight(_text_:und in 1735) [ClassicSimilarity], result of:
0.04581011 = score(doc=1735,freq=30.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.3793607 = fieldWeight in 1735, product of:
5.477226 = tf(freq=30.0), with freq of:
30.0 = termFreq=30.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.03125 = fieldNorm(doc=1735)
0.25 = coord(1/4)
- Abstract
- Dieses Lehrbuch bietet eine umfassende Einführung in Grundlagen und Methoden der Computerlinguistik und stellt die wichtigsten Anwendungsgebiete in der Sprachtechnologie vor. Es richtet sich gleichermaßen an Studierende der Computerlinguistik und verwandter Fächer mit Bezug zur Verarbeitung natürlicher Sprache wie an Entwickler sprachverarbeitender Systeme. Nach einem Überblick über Aufgaben und Ziele der Computerlinguistik werden die erforderlichen theoretischen Grundlagen zur Logik, den Formalen Sprachen, der Graphentheorie, den statistischen Verfahren sowie der Texttechnologie beispielbezogen erläutert. Es schließt sich eine Darstellung der verschiedenen Methoden für die Verarbeitung auf den linguistischen Beschreibungsebenen an. Dabei werden zunächst die grundlegenden Begriffe und Konzepte der Phonetik und Phonologie, Morphologie, Syntax, Semantik sowie der Pragmatik vermittelt und darauf aufbauend die Prinzipien der sprachtechnologischen Umsetzung behandelt. Die drei letzten Teile des Buchs geben Überblicke über die verwendeten sprachtechnologischen Informationsquellen, die vielfältigen Anwendungen in der Praxis sowie über Evaluationsverfahren für sprachverarbeitende Systeme. Anhand konkreter Fragestellungen - von der Entwicklung von Korrekturprogrammen über das Informationsmanagement bis zur Maschinellen Übersetzung - wird das Zusammenwirken der einzelnen Methoden aufgezeigt. Für die dritte Auflage wurden sämtliche Kapitel überarbeitet und aktualisiert sowie zum Teil zu eigenständigen, neuen Kapiteln zusammengeführt. Insbesondere trägt die dritte Auflage der rasanten Entwicklung in der Computerlinguistik und Sprachtechnologie durch eine stärkere Fokussierung auf statistische Grundlagen und Methoden Rechnung. "Durch dieses Handbuch wird für den deutschsprachigen Raum eine empfindliche Lücke geschlossen. Es umfasst die relevanten Aspekte computerlinguistischer Grundlagenwissenschaft und sprachtechnologischer Anwendung in eindrucksvoller Breite und auf aktuellem Stand." [Manfred Pinkal]
- BK
- 18.00 Einzelne Sprachen und Literaturen allgemein
- Classification
- 18.00 Einzelne Sprachen und Literaturen allgemein
-
Donath, A.: Nutzungsverbote für ChatGPT (2023)
0.01
0.011452528 = product of:
0.04581011 = sum of:
0.04581011 = weight(_text_:und in 877) [ClassicSimilarity], result of:
0.04581011 = score(doc=877,freq=30.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.3793607 = fieldWeight in 877, product of:
5.477226 = tf(freq=30.0), with freq of:
30.0 = termFreq=30.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.03125 = fieldNorm(doc=877)
0.25 = coord(1/4)
- Abstract
- ChatGPT soll an New Yorker Schulen geblockt werden, eine Konferenz zu Maschinenlernen verbietet den Einsatz, und auch in Brandenburg gibt es KI-Sorgen.
- Content
- "Die International Conference on Machine Learning (ICML) hat entschieden, dass Autoren bei der Veröffentlichung von wissenschaftlichen Artikeln nicht mehr auf KI-Tools wie ChatGPT zurückgreifen dürfen. Laut ICML stellen öffentlich zugängliche AI-Sprachmodelle wie ChatGPT zwar eine "aufregende" Entwicklung dar, erzeugen aber auch "unvorhergesehene Folgen und unbeantwortete Fragen". Dazu gehörten Themen wie Urheberrecht und Schöpfungshöhe. Die ICML verbietet aber nur von künstlicher Intelligenz "vollständig produzierte" Texte. Die Organisatoren betonten, dass sie nicht die Verwendung von Tools wie ChatGPT "zur Bearbeitung oder Veredelung von von Autoren verfasstem Text" verböten. 2024 soll das Verbot von AI-generiertem Text evaluiert werden. Schon 2022 verbot die Coding-Site Stack Overflow die Einreichung von von ChatGPT erstellten Antworten.
ChatGPT auf Schulnetzwerken blockiert Die New Yorker Bildungsbehörde sperrte den Zugang zu ChatGPT in ihren Netzwerken aus Sorge, dass das KI-Tool von Schülern verwendet werde. Die Sprecherin der Behörde, Jenna Lyle, sagte Chalkbeat New York, die Sperre sei auf mögliche "negative Auswirkungen auf den Lernprozess und Bedenken hinsichtlich der Sicherheit und Richtigkeit von Inhalten" zurückzuführen. "Obwohl das Tool möglicherweise schnelle und einfache Antworten auf Fragen liefern kann, fördert es nicht die Fähigkeit zum kritischen Denken und Problemlösen", sagte Lyle.
Milliardenbewertung für ChatGPT OpenAI, das Chatbot ChatGPT betreibt, befindet sich laut einem Bericht des Wall Street Journals in Gesprächen zu einem Aktienverkauf. Das WSJ meldete, der mögliche Verkauf der Aktien würde die Bewertung von OpenAI auf 29 Milliarden US-Dollar anheben. Sorgen auch in Brandenburg Der brandenburgische SPD-Abgeordnete Erik Stohn stellte mit Hilfe von ChatGPT eine Kleine Anfrage an den Brandenburger Landtag, in der er fragte, wie die Landesregierung sicherstelle, dass Studierende bei maschinell erstellten Texten gerecht beurteilt und benotet würden. Er fragte auch nach Maßnahmen, die ergriffen worden seien, um sicherzustellen, dass maschinell erstellte Texte nicht in betrügerischer Weise von Studierenden bei der Bewertung von Studienleistungen verwendet werden könnten.
Der Autor meint dazu Es ist verständlich, dass sich Lehrer und Wissenschaftler Gedanken darüber machen, wie die Verwendung von künstlicher Intelligenz in der Bildung nicht zu negativen Effekten führt. Es ist wichtig, dass Schüler fair beurteilt werden und niemand Vorteile aus einem Betrug hat. Gleichzeitig ist es jedoch auch wichtig, dass Schüler und Wissenschaftler die Möglichkeit haben, Technologien und Tools zu nutzen, die ihnen helfen können, ihr volles Potential auszuschöpfen. Es wird interessant sein, zu sehen, welche Maßnahmen ergriffen werden, um sicherzustellen, dass die Verwendung von KI in der Bildung und Forschung fair und sicher ist."
- Source
- https://www.golem.de/news/schule-und-wissenschaft-nutzungsverbote-gegen-chatgpt-ausgesprochen-2301-171004.html
-
Weßels, D.: ChatGPT - ein Meilenstein der KI-Entwicklung (2022)
0.01
0.011452528 = product of:
0.04581011 = sum of:
0.04581011 = weight(_text_:und in 929) [ClassicSimilarity], result of:
0.04581011 = score(doc=929,freq=30.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.3793607 = fieldWeight in 929, product of:
5.477226 = tf(freq=30.0), with freq of:
30.0 = termFreq=30.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.03125 = fieldNorm(doc=929)
0.25 = coord(1/4)
- Abstract
- Im November wurde der Chatbot ChatGPT veröffentlicht. Die Sprach-KI verändert die Arbeit von Lehrenden und Lernenden. Eine Zeitenwende in der Bildung?
- Content
- "Seit dem 30. November 2022 ist meine Welt - und die vieler Bildungsexpertinnen und Bildungsexperten - gefühlt eine andere Welt, die uns in eine "Neuzeit" führt, von der wir noch nicht wissen, ob wir sie lieben oder fürchten sollen. Der Ableger und Prototyp ChatGPT des derzeit (zumindest in der westlichen Welt) führenden generativen KI-Sprachmodells GPT-3 von OpenAI wurde am 30. November veröffentlicht und ist seit dieser Zeit für jeden frei zugänglich und kostenlos. Was zunächst als unspektakuläre Ankündigung von OpenAI anmutete, nämlich das seit 2020 bereits verfügbare KI-Sprachmodell GPT-3 nun in leicht modifizierter Version (GPT-3,5) als Chat-Variante für die Echtzeit-Kommunikation bereitzustellen, entpuppt sich in der Anwendung - aus Sicht der Nutzerinnen und Nutzer - als Meilenstein der KI-Entwicklung. Fakt ist, dass die Leistungsvielfalt und -stärke von ChatGPT selbst IT-Expertinnen und -Experten überrascht hat und sie zu einer Fülle von Superlativen in der Bewertung veranlasst, jedoch immer in Kombination mit Hinweisen zur fehlenden Faktentreue und Verlässlichkeit derartiger generativer KI-Modelle. Mit WebGPT von OpenAI steht aber bereits ein Forschungsprototyp bereit, der mit integrierter Internetsuchfunktion die "Halluzinationen" aktueller GPT-Varianten ausmerzen könnte. Für den Bildungssektor stellt sich die Frage, wie sich das Lehren und Lernen an Hochschulen (und nicht nur dort) verändern wird, wenn derartige KI-Werkzeuge omnipräsent sind und mit ihrer Hilfe nicht nur die Hausarbeit "per Knopfdruck" erstellt werden kann. Beeindruckend ist zudem die fachliche Bandbreite von ChatGPT, siehe den Tweet von @davidtsong, der ChatGPT dem Studierfähigkeitstest SAT unterzogen hat."
- Source
- https://www.forschung-und-lehre.de/lehre/chatgpt-ein-meilenstein-der-ki-entwicklung-5271
-
Schürmann, H.: Software scannt Radio- und Fernsehsendungen : Recherche in Nachrichtenarchiven erleichtert (2001)
0.01
0.0112782195 = product of:
0.045112878 = sum of:
0.045112878 = weight(_text_:und in 5759) [ClassicSimilarity], result of:
0.045112878 = score(doc=5759,freq=38.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.3735868 = fieldWeight in 5759, product of:
6.164414 = tf(freq=38.0), with freq of:
38.0 = termFreq=38.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.02734375 = fieldNorm(doc=5759)
0.25 = coord(1/4)
- Content
- Um Firmen und Agenturen die Beobachtungen von Medien zu erleichtern, entwickeln Forscher an der Duisburger Hochschule zurzeit ein System zur automatischen Themenerkennung in Rundfunk und Fernsehen. Das so genannte Alert-System soll dem Nutzer helfen, die für ihn relevanten Sprachinformationen aus Nachrichtensendungen herauszufiltem und weiterzuverarbeiten. Durch die automatische Analyse durch den Computer können mehrere Programme rund um die Uhr beobachtet werden. Noch erfolgt die Informationsgewinnung aus TV- und Radiosendungen auf klassischem Wege: Ein Mensch sieht, hört, liest und wertet aus. Das ist enorm zeitaufwendig und für eine Firma, die beispielsweise die Konkurrenz beobachten oder ihre Medienpräsenz dokumentieren lassen möchte, auch sehr teuer. Diese Arbeit ließe sich mit einem Spracherkenner automatisieren, sagten sich die Duisburger Forscher. Sie arbeiten nun zusammen mit Partnern aus Deutschland, Frankreich und Portugal in einem europaweiten Projekt an der Entwicklung einer entsprechenden Technologie (http://alert.uni-duisburg.de). An dem Projekt sind auch zwei Medienbeobachtungsuntemehmen beteiligt, die Oberserver Argus Media GmbH aus Baden-Baden und das französische Unternehmen Secodip. Unsere Arbeit würde schon dadurch erleichtert, wenn Informationen, die über unsere Kunden in den Medien erscheinen, vorselektiert würden", beschreibt Simone Holderbach, Leiterin der Produktentwicklung bei Oberserver, ihr Interesse an der Technik. Und wie funktioniert Alert? Das Spracherkennungssystem wird darauf getrimmt, Nachrichtensendungen in Radio und Fernsehen zu überwachen: Alles, was gesagt wird - sei es vom Nachrichtensprecher, Reporter oder Interviewten -, wird durch die automatische Spracherkennung in Text umgewandelt. Dabei werden Themen und Schlüsselwörter erkannt und gespeichert. Diese werden mit den Suchbegriffen des Nutzers verglichen. Gefundene Übereinstimmungen werden angezeigt und dem Benutzer automatisch mitgeteilt. Konventionelle Spracherkennungstechnik sei für die Medienbeobachtung nicht einsetzbar, da diese für einen anderen Zweck entwickelt worden sei, betont Prof. Gerhard Rigoll, Leiter des Fachgebiets Technische Informatik an der Duisburger Hochschule. Für die Umwandlung von Sprache in Text wurde die Alert-Software gründlich trainiert. Aus Zeitungstexten, Audio- und Video-Material wurden bislang rund 3 50 Millionen Wörter verarbeitet. Das System arbeitet in drei Sprachen. Doch so ganz fehlerfrei sei der automatisch gewonnene Text nicht, räumt Rigoll ein. Zurzeit liegt die Erkennungsrate bei 40 bis 70 Prozent. Und das wird sich in absehbarer Zeit auch nicht ändern." Musiküberlagerungen oder starke Hintergrundgeräusche bei Reportagen führen zu Ungenauigkeiten bei der Textumwandlung. Deshalb haben die, Duisburger Wissenschaftler Methoden entwickelt, die über die herkömmliche Suche nach Schlüsselwörtern hinausgehen und eine inhaltsorientierte Zuordnung ermöglichen. Dadurch erhält der Nutzer dann auch solche Nachrichten, die zwar zum Thema passen, in denen das Stichwort aber gar nicht auftaucht", bringt Rigoll den Vorteil der Technik auf den Punkt. Wird beispielsweise "Ölpreis" als Suchbegriff eingegeben, werden auch solche Nachrichten angezeigt, in denen Olkonzerne und Energieagenturen eine Rolle spielen. Rigoll: Das Alert-System liest sozusagen zwischen den Zeilen!' Das Forschungsprojekt wurde vor einem Jahr gestartet und läuft noch bis Mitte 2002. Wer sich über den Stand der Technik informieren möchte, kann dies in dieser Woche auf der Industriemesse in Hannover. Das Alert-System wird auf dem Gemeinschaftsstand "Forschungsland NRW" in Halle 18, Stand M12, präsentiert
-
Schmidt, R.: Maschinelle Text-Ton-Synchronisation in Wissenschaft und Wirtschaft (2000)
0.01
0.011088862 = product of:
0.04435545 = sum of:
0.04435545 = weight(_text_:und in 5559) [ClassicSimilarity], result of:
0.04435545 = score(doc=5559,freq=18.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.3673144 = fieldWeight in 5559, product of:
4.2426405 = tf(freq=18.0), with freq of:
18.0 = termFreq=18.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.0390625 = fieldNorm(doc=5559)
0.25 = coord(1/4)
- Abstract
- Tonmaterial in Form von Audio- oder Videoaufnahmen spielt in Bereichen der Wissenschaft, die sich mit verbaler Interaktion beschäftigen, eine bedeutende Rolle. Solche Gebiete sind u,a. die Linguistik, Psychologie, Soziologie und Kriminalistik. Gegenstand der Untersuchung können dabei z.B. die Formen des sprachlichen Handelns und der Sprachvariation in Abhängigkeit von der Situation oder die Ausprägung und Entwicklung von Sprachunterschieden vor dem sozialen Hintergrund sein. Im Rahmen der Analyse eines Gesprächsverlaufs kann beispielsweise die Form der Rederechtsicherung von Interesse sein. In diesem Zusammenhang stellen sich Fragen wie z.B. "Wie bringen Gesprächsteilnehrner Gesprächsbeteiligte dazu, ihre Rede zu unterbrechen?" oder "Wie wehren Gesprächsteilnehmer Unterbrechungsversuche voll anderen Teilnehmern ab?". Denkbar ist hier u.a. nach dem Vorkommen von "ausreden lassen" zu suchen, wobei diese beiden Wörter nicht unbedingt nebeneinander auftreten müssen. Bei der Suche nach Stellen an denen ein Gesprächsteilnehmer Ansprüche oder Forderungen an einen Gesprächspartner stellt, können die flektierten Formen der Modalverben wie z.B. "müssen", "sollen" oder "dürfen" für die Anfrage wichtig sein, während Konnektiva wie "aber", "ja aber" oder "doch" auf oppositive Gesprächsabschnitte verweisen können. Näheres zur gesprächsanalytischen Methodik kann Deppermann (1999) und Brünner et al. (1999) entnommen werden. In dem Bereich der Linguistik, die den Gebrauch von gesprochener Sprache in offiziellen und privaten Situationen zum Gegenstand hat, sind u.a. auch Aussprachevarianten von großem Interesse. Von der Untersuchung der Sprachfärbungen erhofft man sich detaillierte Aussagen über die Sprechersituation und die regionale (König (1988)) und soziale Herkunft des Sprechers machen zu können. In der Kriminalistik wirken solche Ergebnisse unterstützend bei der Identifizierung von Personen
- Source
- Sprachtechnologie für eine dynamische Wirtschaft im Medienzeitalter - Language technologies for dynamic business in the age of the media - L'ingénierie linguistique au service de la dynamisation économique à l'ère du multimédia: Tagungsakten der XXVI. Jahrestagung der Internationalen Vereinigung Sprache und Wirtschaft e.V., 23.-25.11.2000, Fachhochschule Köln. Hrsg.: K.-D. Schmitz
-
Bredack, J.: Automatische Extraktion fachterminologischer Mehrwortbegriffe : ein Verfahrensvergleich (2016)
0.01
0.011088862 = product of:
0.04435545 = sum of:
0.04435545 = weight(_text_:und in 3194) [ClassicSimilarity], result of:
0.04435545 = score(doc=3194,freq=18.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.3673144 = fieldWeight in 3194, product of:
4.2426405 = tf(freq=18.0), with freq of:
18.0 = termFreq=18.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.0390625 = fieldNorm(doc=3194)
0.25 = coord(1/4)
- Abstract
- In dieser Untersuchung wurden zwei Systeme eingesetzt, um MWT aus einer Dokumentkollektion mit fachsprachlichem Bezug (Volltexte des ACL Anthology Reference Corpus) automatisch zu extrahieren. Das thematische Spektrum umfasste alle Bereiche der natürlichen Sprachverarbeitung, im Speziellen die CL als interdisziplinäre Wissenschaft. Ziel war es MWT zu extrahieren, die als potentielle Indexterme im IR Verwendung finden können. Diese sollten auf Konzepte, Methoden, Verfahren und Algorithmen in der CL und angrenzenden Teilgebieten, wie Linguistik und Informatik hinweisen bzw. benennen.
Als Extraktionssysteme wurden der TreeTagger und die Indexierungssoftware Lingo verwendet. Der TreeTagger basiert auf einem statistischen Tagging- und Chunking- Algorithmus, mit dessen Hilfe NPs automatisch identifiziert und extrahiert werden. Er kann für verschiedene Anwendungsszenarien der natürlichen Sprachverarbeitung eingesetzt werden, in erster Linie als POS-Tagger für unterschiedliche Sprachen. Das Indexierungssystem Lingo arbeitet im Gegensatz zum TreeTagger mit elektronischen Wörterbüchern und einem musterbasierten Abgleich. Lingo ist ein auf automatische Indexierung ausgerichtetes System, was eine Vielzahl von Modulen mitliefert, die individuell auf eine bestimmte Aufgabenstellung angepasst und aufeinander abgestimmt werden können. Die unterschiedlichen Verarbeitungsweisen haben sich in den Ergebnismengen beider Systeme deutlich gezeigt. Die gering ausfallenden Übereinstimmungen der Ergebnismengen verdeutlichen die abweichende Funktionsweise und konnte mit einer qualitativen Analyse beispielhaft beschrieben werden. In der vorliegenden Arbeit kann abschließend nicht geklärt werden, welches der beiden Systeme bevorzugt für die Generierung von Indextermen eingesetzt werden sollte.
-
Franke-Maier, M.: Computerlinguistik und Bibliotheken : Editorial (2016)
0.01
0.011088862 = product of:
0.04435545 = sum of:
0.04435545 = weight(_text_:und in 3206) [ClassicSimilarity], result of:
0.04435545 = score(doc=3206,freq=18.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.3673144 = fieldWeight in 3206, product of:
4.2426405 = tf(freq=18.0), with freq of:
18.0 = termFreq=18.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.0390625 = fieldNorm(doc=3206)
0.25 = coord(1/4)
- Abstract
- Vor 50 Jahren, im Februar 1966, wies Floyd M. Cammack auf den Zusammenhang von "Linguistics and Libraries" hin. Er ging dabei von dem Eintrag für "Linguistics" in den Library of Congress Subject Headings (LCSH) von 1957 aus, der als Verweis "See Language and Languages; Philology; Philology, Comparative" enthielt. Acht Jahre später kamen unter dem Schlagwort "Language and Languages" Ergänzungen wie "language data processing", "automatic indexing", "machine translation" und "psycholinguistics" hinzu. Für Cammack zeigt sich hier ein Netz komplexer Wechselbeziehungen, die unter dem Begriff "Linguistics" zusammengefasst werden sollten. Dieses System habe wichtigen Einfluss auf alle, die mit dem Sammeln, Organisieren, Speichern und Wiederauffinden von Informationen befasst seien. (Cammack 1966:73). Hier liegt - im übertragenen Sinne - ein Heft vor Ihnen, in dem es um computerlinguistische Verfahren in Bibliotheken geht. Letztlich geht es um eine Versachlichung der Diskussion, um den Stellenwert der Inhaltserschliessung und die Rekalibrierung ihrer Wertschätzung in Zeiten von Mega-Indizes und Big Data. Der derzeitige Widerspruch zwischen dem Wunsch nach relevanter Treffermenge in Rechercheoberflächen vs. der Erfahrung des Relevanz-Rankings ist zu lösen. Explizit auch die Frage, wie oft wir von letzterem enttäuscht wurden und was zu tun ist, um das Verhältnis von recall und precision wieder in ein angebrachtes Gleichgewicht zu bringen. Unsere Nutzerinnen und Nutzer werden es uns danken.
- Content
- Editorial zu einem Themenschwerpunkt 'Computerlinguistik und Bibliotheken'. Vgl-: http://0277.ch/ojs/index.php/cdrs_0277/article/view/159/349.
-
Hahn, U.: Informationslinguistik : I: Einführung in das linguistische Information Retrieval (1985)
0.01
0.011064193 = product of:
0.044256773 = sum of:
0.044256773 = weight(_text_:und in 3115) [ClassicSimilarity], result of:
0.044256773 = score(doc=3115,freq=28.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.36649725 = fieldWeight in 3115, product of:
5.2915025 = tf(freq=28.0), with freq of:
28.0 = termFreq=28.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.03125 = fieldNorm(doc=3115)
0.25 = coord(1/4)
- Abstract
- Als Bestandteil des Ausbildungsprogramms im Aufbaustudiun Informationswissenschaft an der Universitaet Konstanz (vgl. VOGEL 1984) ist ein Veranstaltungszyklus zur Informationslinguistik entwickelt worden. Die curriculare Planung zu diesem informationswissenschaftlichen Teilgebiet war stark eingebunden in die gesamte Organisation des Aufbaustudiums bzw. Diplomstudiengangs Informationswissenschaft, wobei insbesondere zwei Faktoren einen bestimmenden Einfluss auf die Definition der Lehrinhalte hatten: - die inhaltlichen Anforderungen des entwickelten Berufsbilds Informationsvermittlung und Informationsmanagemsnt - der zulaessige Zeitrahmen des Diplom-Studiengangs Informationswissenschaft (2 Jahre) und die nicht geringen Aufwaende fuer das uebrige Ausbildungsprogramm Die Informationslinguistik ist somit aus einer stark funktionalen Sicht heraus definiert worden, die den Leistungsbeitrag zur umfassenden informationswissenschaftlichen Ausbildung letztlich mehr betont als dis ziplinaere Eigendynamik. Die jetzt realisierte Verbindung aus obligatorischen und fakultativen Veranstaltungen zur Informationslinguistik erlaubt jedoch den an entsprechenden Fachfragen interessierten Studenten durchaus eine qualitativ ausreichende Vertiefung im Rahmen des informationswissenschaftlichen Lehrangebots, das ggf. noch durch Veranstaltungen der unterschiedlichen linguistischen Abteilungen an der Universitaet Konstanz ergaenzt werden kann. Schliesslich ist einer der Forschungsschwerpunkte des Lehrstuhls fuer Informationswissenschaft, das automatische Abstracting-Projekt TOPIC (HAHN/REIMER 1985), eindeutig dem Bereich Informationslinguistik zuzuordnen, der engagierten Studenten weitere Optionen fuer eine spezialisierte Ausbildung und - im Rahmen von durch Studien- und Diplomarbeiten klar abgesteckten Aufgaben - eigenstaendige Forschungs- und Entwicklungstaetigkeit eroeffnet. Informationslinguistik wird am Lehrstuhl fuer Informationswissenschaft der Universitaet Konstanz nun in folgender Konstellation gelehrt:
(1) "Informationslinguistik I: Einfuehrung in das linguistische Information Retrieval" (2) "Informationslinguistik II: linguistische und statistische Verfahren im experimentellen Information Retrieval" (3) "Intelligente Informationssysteme: Verfahren der Kuenstlichen Intelligenz im experimentellen Information Retrieval" Kursabschnitt zu natuerlichsprachlichen Systemen (4) Spezialkurse zum automatischen Uebersetzen, Indexing und Retrieval, Abstracting usf. dienen zur Vertiefung informationslinguistischer Spezialthemen Die Kurse (1) und (3) gehoeren zu dem Pool der Pflichtveranstaltungen aller Studenten des Diplom-Studiengangs Informationswissenschaft, waehrend (2) und (4) lediglich zu den Wahlpflichtveranstaltungen zaehlen, die aber obligatorisch fuer die Studenten des Diplomstudiengangs sind, die ihren Schwerpunkt (z.B. in Form der Diplomarbeit) im Bereich Informationslinguistik suchen - fuer alle anderen Studenten zaehlen diese Kurse zum Zusatz angebot an Lehrveranstaltungen.
Das vorliegende Skript entspricht dem Inhalt des Kurses "Informationslinguistik I" im WS 1982/83. Es ist im Maerz 1983 inhaltlich abgeschlossen und im Januar 1985 lediglich redaktionell ueberarbeitet worden. Die Erstellung des Skripts entspricht einem dezidierten Auftrag des Projekts "Informationsvermittlung", der die Entwicklung geeigneter Lehrmaterialien zum informationswissenschaftlichen Aufbaustudium vorsah. Aufgrund des engen Projektzeitrahmens (1983-85) kann das Skript nicht in dem Masse voll ausgereift und ausformuliert sein, wie es gaengigen Standards entspraeche. Dennoch hat es sich in den jaehrlichen Neuauflagen des Kurses trotz wechselnder Dozenten als weitgehend stabiles inhaltliches Geruest bewaehrt. Nichtsdestotrotz sollte gerade die Veroeffentlichung des Skripts als Anregung dienen, kritische Ko mmentare, Anmerkungen und Ergaenzungen zu diesem curricularen Entwurf herauszufordern, um damit die weitere disziplinaere Klaerung der Informationslinguistik zu foerdern.
- Content
- 2. Teil u.d.T.: Linguistische und statistische Verfahren im experimentellen Information Retrieval
-
Benzmüller, R.: Logox WebSpeech : Die neue Technologie für sprechende Internetseiten (2000)
0.01
0.010864821 = product of:
0.043459285 = sum of:
0.043459285 = weight(_text_:und in 5554) [ClassicSimilarity], result of:
0.043459285 = score(doc=5554,freq=12.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.35989314 = fieldWeight in 5554, product of:
3.4641016 = tf(freq=12.0), with freq of:
12.0 = termFreq=12.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.046875 = fieldNorm(doc=5554)
0.25 = coord(1/4)
- Abstract
- Logox WebSpeech ist eine Sprachausgabe-Plug-In für Internet Explorer und Netscape Communicator, das nicht nur die dargestellten Texte aus HTML Dokumenten vorliest. Da lediglich Texte übertragen werden, entstehen keine Verzögerungen bei der Übertragung. Die zugrundeliegende Logox Sprachsynthese zeichnet sich durch den ökonomischen Umgang mit Speicherplatz und Rechenleistung aus, ohne Einbußen bei der Sprachqualität. Diese Okonomie ermöglicht es das Plug-In als kleinen DownIoad anzubieten. Logox WebSpeech setzt auf den akustischen Kommunikationskanal, der bislang im Internet nur sehr wenig genutzt wird. Logox WebSpeech ist umfassend in IITML und Skriptsprachen einzubinden und kann eingesetzt werden, um Grafiken zu kommentieren, Forrnulare freundlicher zu gestalten, Antworten auf Datenbankabfragen anzusagen und um sprechende Slideshows oder Newsticker zu erstellen
- Source
- Sprachtechnologie für eine dynamische Wirtschaft im Medienzeitalter - Language technologies for dynamic business in the age of the media - L'ingénierie linguistique au service de la dynamisation économique à l'ère du multimédia: Tagungsakten der XXVI. Jahrestagung der Internationalen Vereinigung Sprache und Wirtschaft e.V., 23.-25.11.2000, Fachhochschule Köln. Hrsg.: K.-D. Schmitz
-
Jensen, N.: Evaluierung von mehrsprachigem Web-Retrieval : Experimente mit dem EuroGOV-Korpus im Rahmen des Cross Language Evaluation Forum (CLEF) (2006)
0.01
0.010864821 = product of:
0.043459285 = sum of:
0.043459285 = weight(_text_:und in 5964) [ClassicSimilarity], result of:
0.043459285 = score(doc=5964,freq=12.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.35989314 = fieldWeight in 5964, product of:
3.4641016 = tf(freq=12.0), with freq of:
12.0 = termFreq=12.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.046875 = fieldNorm(doc=5964)
0.25 = coord(1/4)
- Abstract
- Der vorliegende Artikel beschreibt die Experimente der Universität Hildesheim im Rahmen des ersten Web Track der CLEF-Initiative (WebCLEF) im Jahr 2005. Bei der Teilnahme konnten Erfahrungen mit einem multilingualen Web-Korpus (EuroGOV) bei der Vorverarbeitung, der Topic- bzw. Query-Entwicklung, bei sprachunabhängigen Indexierungsmethoden und multilingualen Retrieval-Strategien gesammelt werden. Aufgrund des großen Um-fangs des Korpus und der zeitlichen Einschränkungen wurden multilinguale Indizes aufgebaut. Der Artikel beschreibt die Vorgehensweise bei der Teilnahme der Universität Hildesheim und die Ergebnisse der offiziell eingereichten sowie weiterer Experimente. Für den Multilingual Task konnte das beste Ergebnis in CLEF erzielt werden.
- Source
- Effektive Information Retrieval Verfahren in Theorie und Praxis: ausgewählte und erweiterte Beiträge des Vierten Hildesheimer Evaluierungs- und Retrievalworkshop (HIER 2005), Hildesheim, 20.7.2005. Hrsg.: T. Mandl u. C. Womser-Hacker
-
Geißler, S.: Maschinelles Lernen und NLP : Reif für die industrielle Anwendung! (2019)
0.01
0.010864821 = product of:
0.043459285 = sum of:
0.043459285 = weight(_text_:und in 3547) [ClassicSimilarity], result of:
0.043459285 = score(doc=3547,freq=12.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.35989314 = fieldWeight in 3547, product of:
3.4641016 = tf(freq=12.0), with freq of:
12.0 = termFreq=12.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.046875 = fieldNorm(doc=3547)
0.25 = coord(1/4)
- Abstract
- Anwendungen von maschinellen Lernverfahren (ML) haben in jüngster Zeit aufsehenerregende Durchbrüche bei einer ganzen Reihe von Aufgaben in der maschinellen Sprachverarbeitung (NLP) erzielt. Der Fokus vieler Arbeiten liegt hierbei in der Entwicklung immer besserer Modelle, während der Anteil der Aufgaben in praktischen Projekten, der sich nicht mit Modellbildung, sondern mit Themen wie Datenbereitstellung sowie Evaluierung, Wartung und Deployment von Modellen beschäftigt, oftmals noch nicht ausreichend Beachtung erfährt. Im Ergebnis fehlen gerade Unternehmen, die nicht die Möglichkeit haben, eigene Plattformen für den Einsatz von ML und NLP zu entwerfen, oft geeignete Werkzeuge und Best Practices. Es ist zeichnet sich ab, dass in den kommenden Monaten eine gerade diesen praktischen Fragen zugewandte Ingenieurssicht auf ML und ihren Einsatz im Unternehmen an Bedeutung gewinnen wird.
- Source
- Information - Wissenschaft und Praxis. 70(2019) H.2/3, S.134-140
-
Mengel, T.: Wie viel Terminologiearbeit steckt in der Übersetzung der Dewey-Dezimalklassifikation? (2019)
0.01
0.010864821 = product of:
0.043459285 = sum of:
0.043459285 = weight(_text_:und in 5603) [ClassicSimilarity], result of:
0.043459285 = score(doc=5603,freq=12.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.35989314 = fieldWeight in 5603, product of:
3.4641016 = tf(freq=12.0), with freq of:
12.0 = termFreq=12.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.046875 = fieldNorm(doc=5603)
0.25 = coord(1/4)
- Abstract
- Bibliotheken weltweit setzen die Dewey-Dezimalklassifikation (DDC) als Aufstellungssystematik und/oder zur Katalogsuche ein. Es existieren Übersetzungen der DDC in über 30 Sprachen. Als ein umfassendes System zur Ordnung von Wissen bestehend aus numerischen Notationen und sprachlichen Klasseninhalten bietet die DDC dem Terminologen bzw. der Terminologin ein weites Arbeits- und Forschungsfeld. Aber wie spielen Terminologiearbeit und Übersetzung zusammen, wenn, wie in diesem Fall, die Terminologie selbst das Übersetzungsobjekt ist? Der Aufsatz kann nicht alle Themen erschöpfend behandeln, aber er präsentiert Merkmale der DDC erstmals aus der Perspektive der DDC-Übersetzungsarbeit, und er wirft die Frage auf, ob dem Aspekt der Terminologiearbeit in der DDC-Übersetzung bislang tatsächlich genügend Aufmerksamkeit geschenkt wurde.
- Series
- Kommunikation und Medienmanagement - Springer eBooks. Computer Science and Engineering
-
Szöke, D.: ChatGPT : wie Sie die KI ausprobieren können (2022)
0.01
0.010864821 = product of:
0.043459285 = sum of:
0.043459285 = weight(_text_:und in 834) [ClassicSimilarity], result of:
0.043459285 = score(doc=834,freq=12.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.35989314 = fieldWeight in 834, product of:
3.4641016 = tf(freq=12.0), with freq of:
12.0 = termFreq=12.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.046875 = fieldNorm(doc=834)
0.25 = coord(1/4)
- Abstract
- Wo Sie sich anmelden können, wie Sie mit der künstlichen Intelligenz interagieren können und worauf Sie achten sollten.
- Content
- ChatGPT ist ein KI-Chatbot, der menschliche Texteingaben verstehen und möglichst natürlich antworten soll - und für ziemlich viel Begeisterung im Netz sorgt. Jeder kann mit der "künstlichen Intelligenz" einen Dialog führen oder sie um passenden Code oder ein paar launig klingende Gedichtzeilen bitten. Ausprobieren können Sie das kostenlos - wir zeigen Ihnen, wie das geht. Account einrichten ChatGPT wird auf der OpenAI-Website angeboten - allerdings nur für registrierte Nutzer. Um einen OpenAI-Account zu erstellen, muss man eine E-Mail-Adresse und eine Handynummer angeben, gegebenenfalls müssen Sie noch ein Captcha lösen. Die E-Mail-Adresse [email protected] sendet einen Verifizierungslink, welcher Sie zurück zur Website und zum nächsten Schritt führt. Nach der Auswahl des Benutzernamens müssen Sie nur noch den Nutzungsbedingungen zustimmen und eine Verifizierung über die Handynummer vornehmen. Letztere passiert über das Zusenden eines sechsstelligen Bestätigungs-Codes.
-
Artemenko, O.; Shramko, M.: Entwicklung eines Werkzeugs zur Sprachidentifikation in mono- und multilingualen Texten (2005)
0.01
0.010668128 = product of:
0.04267251 = sum of:
0.04267251 = weight(_text_:und in 572) [ClassicSimilarity], result of:
0.04267251 = score(doc=572,freq=34.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.35337773 = fieldWeight in 572, product of:
5.8309517 = tf(freq=34.0), with freq of:
34.0 = termFreq=34.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.02734375 = fieldNorm(doc=572)
0.25 = coord(1/4)
- Abstract
- Identifikation der Sprache bzw. Sprachen elektronischer Textdokumente ist einer der wichtigsten Schritte in vielen Prozessen maschineller Textverarbeitung. Die vorliegende Arbeit stellt LangIdent, ein System zur Sprachidentifikation von mono- und multilingualen elektronischen Textdokumenten vor. Das System bietet sowohl eine Auswahl von gängigen Algorithmen für die Sprachidentifikation monolingualer Textdokumente als auch einen neuen Algorithmus für die Sprachidentifikation multilingualer Textdokumente.
Mit der Verbreitung des Internets vermehrt sich die Menge der im World Wide Web verfügbaren Dokumente. Die Gewährleistung eines effizienten Zugangs zu gewünschten Informationen für die Internetbenutzer wird zu einer großen Herausforderung an die moderne Informationsgesellschaft. Eine Vielzahl von Werkzeugen wird bereits eingesetzt, um den Nutzern die Orientierung in der wachsenden Informationsflut zu erleichtern. Allerdings stellt die enorme Menge an unstrukturierten und verteilten Informationen nicht die einzige Schwierigkeit dar, die bei der Entwicklung von Werkzeugen dieser Art zu bewältigen ist. Die zunehmende Vielsprachigkeit von Web-Inhalten resultiert in dem Bedarf an Sprachidentifikations-Software, die Sprache/en von elektronischen Dokumenten zwecks gezielter Weiterverarbeitung identifiziert. Solche Sprachidentifizierer können beispielsweise effektiv im Bereich des Multilingualen Information Retrieval eingesetzt werden, da auf den Sprachidentifikationsergebnissen Prozesse der automatischen Indexbildung wie Stemming, Stoppwörterextraktion etc. aufbauen. In der vorliegenden Arbeit wird das neue System "LangIdent" zur Sprachidentifikation von elektronischen Textdokumenten vorgestellt, das in erster Linie für Lehre und Forschung an der Universität Hildesheim verwendet werden soll. "LangIdent" enthält eine Auswahl von gängigen Algorithmen zu der monolingualen Sprachidentifikation, die durch den Benutzer interaktiv ausgewählt und eingestellt werden können. Zusätzlich wurde im System ein neuer Algorithmus implementiert, der die Identifikation von Sprachen, in denen ein multilinguales Dokument verfasst ist, ermöglicht. Die Identifikation beschränkt sich nicht nur auf eine Aufzählung von gefundenen Sprachen, vielmehr wird der Text in monolinguale Abschnitte aufgeteilt, jeweils mit der Angabe der identifizierten Sprache.
Die Arbeit wird in zwei Hauptteile gegliedert. Der erste Teil besteht aus Kapiteln 1-5, in denen theoretische Grundlagen zum Thema Sprachidentifikation dargelegt werden. Das erste Kapitel beschreibt den Sprachidentifikationsprozess und definiert grundlegende Begriffe. Im zweiten und dritten Kapitel werden vorherrschende Ansätze zur Sprachidentifikation von monolingualen Dokumenten dargestellt und miteinander verglichen, indem deren Vor- und Nachteile diskutiert werden. Das vierte Kapitel stellt einige Arbeiten vor, die sich mit der Sprachidentifikation von multilingualen Texten befasst haben. Der erste Teil der Arbeit wird mit einem Überblick über die bereits entwickelten und im Internet verfügbaren Sprachidentifikationswerkzeuge abgeschlossen. Der zweite Teil der Arbeit stellt die Entwicklung des Sprachidentifikationssystems LangIdent dar. In den Kapiteln 6 und 7 werden die an das System gestellten Anforderungen zusammengefasst und die wichtigsten Phasen des Projekts definiert. In den weiterführenden Kapiteln 8 und 9 werden die Systemarchitektur und eine detaillierte Beschreibung ihrer Kernkomponenten gegeben. Das Kapitel 10 liefert ein statisches UML-Klassendiagramm mit einer ausführlichen Erklärung von Attributen und Methoden der im Diagramm vorgestellten Klassen. Das nächste Kapitel befasst sich mit den im Prozess der Systementwicklung aufgetretenen Problemen. Die Bedienung des Programms wird im Kapitel 12 beschrieben. Im letzten Kapitel der Arbeit wird die Systemevaluierung vorgestellt, in der der Aufbau und Umfang von Trainingskorpora sowie die wichtigsten Ergebnisse mit der anschließenden Diskussion präsentiert werden.
- Imprint
- Hildesheim : Universität Hildesheim / Fachbereich III; Informations- und Kommunikationswissenschaften
-
Rösener, C.: ¬Die Stecknadel im Heuhaufen : Natürlichsprachlicher Zugang zu Volltextdatenbanken (2005)
0.01
0.010661723 = product of:
0.042646892 = sum of:
0.042646892 = weight(_text_:und in 548) [ClassicSimilarity], result of:
0.042646892 = score(doc=548,freq=26.0), product of:
0.12075608 = queryWeight, product of:
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.054483794 = queryNorm
0.3531656 = fieldWeight in 548, product of:
5.0990195 = tf(freq=26.0), with freq of:
26.0 = termFreq=26.0
2.216367 = idf(docFreq=13101, maxDocs=44218)
0.03125 = fieldNorm(doc=548)
0.25 = coord(1/4)
- Abstract
- Die Möglichkeiten, die der heutigen Informations- und Wissensgesellschaft für die Beschaffung und den Austausch von Information zur Verfügung stehen, haben kurioserweise gleichzeitig ein immer akuter werdendes, neues Problem geschaffen: Es wird für jeden Einzelnen immer schwieriger, aus der gewaltigen Fülle der angebotenen Informationen die tatsächlich relevanten zu selektieren. Diese Arbeit untersucht die Möglichkeit, mit Hilfe von natürlichsprachlichen Schnittstellen den Zugang des Informationssuchenden zu Volltextdatenbanken zu verbessern. Dabei werden zunächst die wissenschaftlichen Fragestellungen ausführlich behandelt. Anschließend beschreibt der Autor verschiedene Lösungsansätze und stellt anhand einer natürlichsprachlichen Schnittstelle für den Brockhaus Multimedial 2004 deren erfolgreiche Implementierung vor
- Content
- Enthält die Kapitel: 2: Wissensrepräsentation 2.1 Deklarative Wissensrepräsentation 2.2 Klassifikationen des BMM 2.3 Thesauri und Ontologien: existierende kommerzielle Software 2.4 Erstellung eines Thesaurus im Rahmen des LeWi-Projektes 3: Analysekomponenten 3.1 Sprachliche Phänomene in der maschinellen Textanalyse 3.2 Analysekomponenten: Lösungen und Forschungsansätze 3.3 Die Analysekomponenten im LeWi-Projekt 4: Information Retrieval 4.1 Grundlagen des Information Retrieval 4.2 Automatische Indexierungsmethoden und -verfahren 4.3 Automatische Indexierung des BMM im Rahmen des LeWi-Projektes 4.4 Suchstrategien und Suchablauf im LeWi-Kontext
5: Interaktion 5.1 Frage-Antwort- bzw. Dialogsysteme: Forschungen und Projekte 5.2 Darstellung und Visualisierung von Wissen 5.3 Das Dialogsystem im Rahmen des LeWi-Projektes 5.4 Ergebnisdarstellung und Antwortpräsentation im LeWi-Kontext 6: Testumgebungen und -ergebnisse 7: Ergebnisse und Ausblick 7.1 Ausgangssituation 7.2 Schlussfolgerungen 7.3 Ausblick Anhang A Auszüge aus der Grob- bzw. Feinklassifikation des BMM Anhang B MPRO - Formale Beschreibung der wichtigsten Merkmale ... Anhang C Fragentypologie mit Beispielsätzen (Auszug) Anhang D Semantische Merkmale im morphologischen Lexikon (Auszug) Anhang E Regelbeispiele für die Fragentypzuweisung Anhang F Aufstellung der möglichen Suchen im LeWi-Dialogmodul (Auszug) Anhang G Vollständiger Dialogbaum zu Beginn des Projektes Anhang H Statuszustände zur Ermittlung der Folgefragen (Auszug)
- Series
- Saarbrücker Beiträge zur Sprach- und Translationswissenschaft; Bd.8