Options
Die Erschließung heterogener Textquellen für die Digital Humanities
Abstract
Collections of text data can often be described as semi-structured data which can be segmented into structural units containing elements of an implicit schema which can be converted into a structured format. For this processing pipeline a software is presented which includes functions for indicator-based rules as well as consistency checks and data cleansing methods (e.g., removal of duplicate entries) for the generated corpus data. The results can be exported into eight data formats. Thus, the software is a link between available text data and the application of current tools and methods in the field of the Digital Humanities.
For processing text data with less explicit and consistent indicators for the fields of the implicit schema a method based on Conditional Random Fields (CRF) including an Active Learning approach is proposed. Based on the probabilities for the labels assigned by the CRF, the processed elements are clustered into eight sets from which instances are displayed to the users for iteratively augmenting the set of training data. Additionally, elements with a high probability for the attributions of their labels can be marked as "correct", in order to skip them in the next iterations. A case study shows that the results improve with the first iterations, while the results of the elements marked as »correct« decrease after a number of iterations, resulting in recommendations for the application of CRFs with few training data.
For processing text data with less explicit and consistent indicators for the fields of the implicit schema a method based on Conditional Random Fields (CRF) including an Active Learning approach is proposed. Based on the probabilities for the labels assigned by the CRF, the processed elements are clustered into eight sets from which instances are displayed to the users for iteratively augmenting the set of training data. Additionally, elements with a high probability for the attributions of their labels can be marked as "correct", in order to skip them in the next iterations. A case study shows that the results improve with the first iterations, while the results of the elements marked as »correct« decrease after a number of iterations, resulting in recommendations for the application of CRFs with few training data.
Sammlungen von Textdaten können oft als semi-strukturierte Daten beschrieben werden, die sich in strukturelle Einheiten segmentieren lassen, in denen Elemente eines impliziten Schemas erkannt und in ein strukturiertes Format überführt werden können. Für diese Erschließung wird eine Software vorgestellt, die Funktionen für indikatorbasierte Regeln sowie zur Konsistenzprüfung und Bereinigung (z. B. von Textdubletten) der entstehenden Korpusdaten anbietet. Die Ergebnisse können in acht Formate exportiert werden, womit die Software als Bindeglied zwischen verfügbaren Textdaten und dem Einsatz aktueller Verfahren der Digital Humanities fungiert.
Für die Erschließung schwächer strukturierter Daten, die über keine eindeutigen und einheitlichen Indikatoren für die Felder des impliziten Schemas verfügen, wird eine Methode auf Grundlage von Conditional Random Fields (CRF) in Verbindung mit einem Active Learning-Ansatz vorgeschlagen. Die Elemente der verarbeiteten Daten werden anhand der vom CRF erkannten Wahrscheinlichkeiten für die zugeordneten Bezeichner in acht Cluster eingeteilt, woraus den Anwendern Instanzen für eine iterative Erweiterung der Trainingsdaten dargeboten werden. Gleichzeitig können Elemente, deren Bezeichner mit einer hohen Wahrscheinlichkeit vergeben werden, als "richtig" markiert werden, womit sie in den darauffolgenden Iterationen übersprungen werden. Eine Fallstudie zeigt, dass sich die Ergebnisse mit den ersten Iterationen verbessern, während sich die Werte der als »richtig« markierten Elemente nach einigen Iterationen verschlechtern, woraus sich Empfehlungen für die Anwendung von CRFs mit wenigen Trainingsdaten ergeben.
Für die Erschließung schwächer strukturierter Daten, die über keine eindeutigen und einheitlichen Indikatoren für die Felder des impliziten Schemas verfügen, wird eine Methode auf Grundlage von Conditional Random Fields (CRF) in Verbindung mit einem Active Learning-Ansatz vorgeschlagen. Die Elemente der verarbeiteten Daten werden anhand der vom CRF erkannten Wahrscheinlichkeiten für die zugeordneten Bezeichner in acht Cluster eingeteilt, woraus den Anwendern Instanzen für eine iterative Erweiterung der Trainingsdaten dargeboten werden. Gleichzeitig können Elemente, deren Bezeichner mit einer hohen Wahrscheinlichkeit vergeben werden, als "richtig" markiert werden, womit sie in den darauffolgenden Iterationen übersprungen werden. Eine Fallstudie zeigt, dass sich die Ergebnisse mit den ersten Iterationen verbessern, während sich die Werte der als »richtig« markierten Elemente nach einigen Iterationen verschlechtern, woraus sich Empfehlungen für die Anwendung von CRFs mit wenigen Trainingsdaten ergeben.
Publikationstyp
PhDThesis
Autor*in
Erscheinungsdatum
2020
DOI
Fachbereich
Institut / Einrichtung
Titel verleihende Institution
Stiftung Universität Hildesheim
Gutachter*in
Heid, Ulrich
;
Lauer, Gerhard
Tag der Disputation
June 25, 2020
Verlag
Universitätsverlag Hildesheim
Verlagsort
Hildesheim
Anzahl der Seiten
337
URN
urn:nbn:de:gbv:hil2-opus4-11384
HilPub Permalink