Search (2 results, page 1 of 1)

  • × author_ss:"Parschik, T."
  1. Müller, C.; Sternitzke, N.; Stratmann, R.; Parschik, T.: Kataloganreicherung und Zeitschriftenerschließung mit MyBib eDoc und C-3 am Ibero-Amerikanischen Institut, Preußischer Kulturbesitz : Neue Verfahren zur Optimierung der bibliografischen Nachweissituation in einer großen Spezialbibliothek (2010) 0.01
    0.01228941 = product of:
      0.04915764 = sum of:
        0.04915764 = weight(_text_:und in 3499) [ClassicSimilarity], result of:
          0.04915764 = score(doc=3499,freq=36.0), product of:
            0.118290015 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.05337113 = queryNorm
            0.41556883 = fieldWeight in 3499, product of:
              6.0 = tf(freq=36.0), with freq of:
                36.0 = termFreq=36.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.03125 = fieldNorm(doc=3499)
      0.25 = coord(1/4)
    
    Abstract
    Die Bibliothek des lbero-Amerikanischen Instituts der Stiftung Preußischer Kulturbesitz in Berlin (IAI) ist mit über 830.000 Monografien, 33.000 Zeitschriften und Zeitungen, von denen ca. 5.000 als laufende Abos geführt werden, und zahlreichen weiteren großen Sondersammlungen (Landkarten, Tonträger, Videos, DVDs, Nachlässe etc.) die größte Spezialbibliothek zu Lateinamerika, Spanien, Portugal und der Karibik in Europa und nach der Library of Congress in Washington und der Nettie-Lee-Benson-Collection der University of Texas in Austin die drittgrößte Spezialbibliothek dieser Art in der Welt. Über Kauf, Tausch und Schenkung erweitert sich der Bestand jedes Jahr um ca. 30.000 Monografien. Um die Nachweissituation von Sammelband- und Zeitschriftenaufsätzen und gleichzeitig das bibliografische Informationsangebot im Sinne einer Spezialbibliothek zu verbessern, hat das IAl in den letzten zwei Jahren zwei neue Geschäftsgänge eingeführt, mit denen die seit der Gründung des IAI vor fast 80 Jahren gängige Praxis, ausgewählte Aufsätze aus Zeitschriften und Sammelbänden zu erschließen, automatisiert wurde. Als erstes trat die Bibliothek des IAI 2007 dem System der Online-Contents-Sondersammelgebietsausschnitte (OLC-SSG) des GBV bei und betreut seitdem den OLC-SSG Ibero-Amerika. Es werden dazu im IAI sowohl die aktuellen als auch die bis zum Jahr 2000 zurückreichenden Inhaltsverzeichnisse von 780 laufenden Zeitschriftentiteln auf Artikelebene erschlossen.
    Zur Bewältigung dieser Menge an Artikeldaten kommt im IAI die Software C-3 der ImageWare Components GmbH zum Einsatz, die es ermöglicht, die formale Erschließung in einem größtenteils automatisierten Geschäftsgang durchzuführen. In den einzelnen Modulen von C-3 erfolgt die automatische Erkennung der Titel-, Autoren- und Seitenzahlinformationen in den gescannten Inhaltsverzeichnissen sowie deren automatische Indexierung und Konversion in Katalogisate. An den Indexierungsarbeitsplätzen kommen normale Standard-PCs zum Einsatz, über die auf die Auftragsverwaltung des zentralen C-3 Periodikaservers per Browser zugegriffen wird. Die C-3 Software besteht aus den Programmmodulen C-3 Template und C-3 Index. In C-3 Template werden einmalig für jeden Zeitschriftentitel die Struktur der Inhaltsverzeichnisse (Interpretationstyp Regel, Tabelle oder Freiform), die Abfolge von Aufsatztitel, Autoren und Seitenzahlen sowie die Schriftattribute (fett, kursiv etc.) der bibliografischen Daten festgelegt. Auf Basis dieser Templatedefinition werden die Scans der jeweiligen Inhaltsverzeichnisse im C-3 Index Modul mit der OCR Software Abbyy Fine Reader so erkannt, dass die bibliografischen Informationen der einzelnen Aufsätze bereits kategorisiert und aufsatzweise separiert ausgegeben werden. Die dabei erzeugten Daten können, sofern erforderlich, noch während der Bearbeitung mit C-3 mit einer Reihe von integrierten Nachbearbeitungstools korrigiert und im Anschluss im XML-Format an den C-3 Periodikaserver exportiert werden. Automatische Konversionsroutinen erzeugen aus den xml-Dateien serverseitig Artikeldaten im Pica3-Format, die nach einer abschließenden Qualitätskontrolle in die Online Contents Datenbanken des GBV eingespielt werden.
  2. Parschik, T.: Durchführung von Digitalisierungsprojekten in Bibliotheken (2006) 0.01
    0.008413984 = product of:
      0.033655938 = sum of:
        0.033655938 = weight(_text_:und in 149) [ClassicSimilarity], result of:
          0.033655938 = score(doc=149,freq=30.0), product of:
            0.118290015 = queryWeight, product of:
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.05337113 = queryNorm
            0.28452054 = fieldWeight in 149, product of:
              5.477226 = tf(freq=30.0), with freq of:
                30.0 = termFreq=30.0
              2.216367 = idf(docFreq=13101, maxDocs=44218)
              0.0234375 = fieldNorm(doc=149)
      0.25 = coord(1/4)
    
    Abstract
    Der vorliegende Artikel entstand auf Grundlage einer Diplomarbeit, in der ein Konzept für ein Digitalisierungsprojekt im Ibero-Amerikanischen Institut entwickelt wurde. Das Institut plant die Digitalisierung einiger Sammlungen lateinamerikanischer Volksliteratur und Grafik. Auch wenn die Entwicklung momentan noch im Fluss ist, sollen im nachfolgenden Artikel für Digitalisierungsprojekte wichtige Aspekte wie Vorgänge, Techniken und Standards vorgestellt werden, allerdings unter Ausklammerung der umfassenden Themenkomplexe Metadaten und Präsentation der fertigen Ergebnisse im Internet.
    Content
    Darin: "6. Erschließung der Digitalisate Die Digitalisate sollten formal und inhaltlich erschlossen werden. Die formale Erschließung erfolgt i.d.R. nach den RAK-WB, v.a. wenn die Digitalisate im Bibliothekskatalog recherchierbar sein sollen. Die inhaltliche Erschließung trägt zur Schaffung eines Mehrwertes bei. Schon eine einfache inhaltliche Erschließung durch Vergabe von Suchkriterien erleichtert den Überblick über die Bestände zu einem bestimmten Thema. Eine sehr tiefgehende Form der Erschließung ist der Einsatz automatischer Texterkennung, der es möglich macht, mittels Volltextsuche große Bestandsmengen innerhalb von Sekunden auch nach nicht indexierten Begriffen zu durchsuchen. Der Mehrwert wächst mit dem Grad der Erschließung.` Man unterscheidet Digitalisate mit kodierten Informationen (Coded Information, CI) und Digitalisate mit nicht kodierten Informationen (Non Coded Information, NCI). Bei kodierten Digitalisaten ist jedes Schriftzeichen mit einem Code abgespeichert, der dem PC eine Interpretation ermöglicht. Speicherung im Volltext ermöglicht eine Volltextsuche. Für Text- und Metadaten haben sich XML-basierte Datenformate durchgesetzt, wobei von der DFG die Ausprägung METS (Metadata Encoding and Transmission Standard) empfohlen wird. Nicht kodierte Bild-Informationen können zum Beispiel in TIFF, JPG oder PDF vorliegen. Solche Digitalisate können vom PC nicht interpretiert werden." (S.1435)
    6.1 Manuelle Indexierung Die qualitativ höchstwertige Erschließung ist die manuell vorgenommene Indexierung. Sie setzt ein inhaltliches Verständnis des digitalisierten Dokuments voraus. Dabei muss eine Indexierungssprache angewendet werden, in der die relevanten Inhalte des zu erschließenden Dokuments wiedergegeben werden." Das "DFGFörderprogramm retrospektive Digitalisierung" vertritt die Auffassung, dass die inhaltliche Erschließung der Digitalisate finanziell nachrangig zu behandeln sei. In einigen US-amerikanischen Digitalisierungsprojekten wurde ein Zeitraum von 15 Minuten für die manuelle Erschließung eines Dokumentes veranschlagt. (S.1436) 6.2 Automatische Schrifterkennung Eine preiswerte Erschließungsmöglichkeit bietet der Einsatz von Automatischer Schrifterkennung (Optical Character Recognition, OCR). Es handelt sich hierbei um ein automatisches Verfahren, das mittels Mustererkennung bildlich vorliegende alphanumerische Zeichen in codierte Daten umwandelt. (S.1436) ... 6.3 Statistische Indexierungsverfahren Statistische Indexierungsverfahren gehen davon aus, dass die Häufigkeit des Auftretens eines Wortes in einem Dokument Aufschluss über die Signifikanz desselben gibt (Zipfsches Gesetz). Ein Begriff, der in einem zu erschließenden Dokument häufig, im Gesamtbestand der Dokumente selten vorkommt, ist von inhaltlicher Relevanz. Ein Begriff, der in einem Dokument häufig und auch im Gesamtbestand der Dokumente häufig auftritt, ist nicht von inhaltlicher Relevanz. Da nicht alle Worte sinntragend und daher als Indexterme geeignet sind, muss eine Indexterminologie erstellt werden, in die nur geeignete Terme aufgenommen werden. Indexterme haben verschiedene Wertigkeiten. Folglich muss eine Gewichtung vorgenommen werden. (S.1438)
    6.4 Linguistische Indexierungsverfahren Linguistische Verfahren können Flexionsformen erkennen (Maskulinum, Femininum, Neutrum, Singular, Plural). Eine Rechtschreibprüfung ermöglicht das Auffinden eines Begriffs auch bei falscher oder abweichender Schreibung bei der Recherche oder im digitalen Dokument. Man unterscheidet folgende Fehlerarten: - die Auslassung eines Zeichens, das in den Begriff gehört - die Einfügung eines Zeichens, das nicht in den Begriff gehört - die Substitution, also die Ersetzung eines Zeichens, das in den Begriff gehört, durch ein anderes Zeichen, das nicht in den Begriff gehört - die Vertauschung von Zeichen in ihrer Reihenfolge. Bei der syntaktischen Analyse werden Begriffe auf ihre Grundformen reduziert. Für jeden Begriff muss festgelegt werden, wie weit er reduziert werden soll. Wird der Stamm zu weit belassen, können bei der Recherche viele irrelevante Treffer angezeigt werden (Overstemming). Wird der Stamm zu knapp bemessen, werden evtl. relevante Dokumente nicht gefunden (Understemming). Zudem dient die syntaktische Analyse der Erkennung von Homographen, indem sie Mehrwortgruppen erkennt. Vor der Anwendung eines syntaktischen Verfahrens muss ein Wörterbuch erarbeitet werden. Informationslinguistische Indexsysteme werden in regelbasierte und wörterbuchbasierte Verfahren eingeteilt. Bei ersteren muss ein Regelwerk erstellt werden. Alle in den digitalisierten Dokumenten auftretenden Wörter werden gemäß diesem Regelwerk analysiert und bearbeitet. Dieses Verfahren ist fehlerbehaftet. Das regelbasierte Verfahren ist mit einem verhältnismäßig geringen Aufwand verbunden, da hierbei nicht jeder relevante Begriff einzeln bearbeitet wird. Wörterbuchbasierte Verfahren sind sehr zuverlässig. Sprachliche Unregelmäßigkeiten werden ausgeglichen. Die Erarbeitung von Wörterbüchern ist extrem arbeits-, zeit- und kostenaufwendig. Außerdem orientiert sich ein Wörterbuch zumeist an aktuellen sprachlichen und orthografischen Regelungen und erkennt alte Formen nicht. Morphologische Verfahren basieren auf den Gesetzmäßigkeiten von Wortstrukturen und der Bildung von Wortklassen. Man unterscheidet Flexionsmorphologie und Derivationsmorphologie. Bei der Flexionsmorphologie werden Wörter umgewandelt, um grammatikalische Kontraste innerhalb von Satzkonstruktionen auszudrücken. Die Derivationsmorphologie befasst sich mit Grundprinzipien der Konstruktion neuer Wörter." (S.1439)