3 Works

Automatisiertes Record Linkage in prosopographischen Datenbeständen am Beispiel historischer Quellen Leipzigs

Jan Michael Goldberg & Marcel Mernitz
In dieser Studie wird ein automatisierter Ansatz zum Record Linkage in prosopographischen Datenbeständen vorgestellt. In ihm sind zahlreiche genealogische Regeln zur Verknüpfung von Personen implementiert. Dadurch ist er besonders für Datenbestände geeignet, die zu den abgebildeten Individuen viele genealogisch relevante Informationen bereithalten. Dazu wird eine normierte Datenstruktur definiert, in die die Eingangsdaten einzuordnen sind. Der Algorithmus erkennt innerhalb dieser Datenstruktur Einträge zu gleichen Personen und führt diese automatisch zusammen. In diesem Zuge wird eine Formalisierung...

Automatisierte Identifikation und Lemmatisierung historischer Berufsbezeichnungen in deutschsprachigen Datenbeständen

Jan Michael Goldberg & Katrin Moeller
Berufsangaben kommen in vielen historischen Quellen vor. Für eine Vielzahl von Forschungsgebieten ist nicht nur eine Standardisierung, sondern vor allem Klassifikation eine zentrale Voraussetzung zur Analyse. Dabei wird die Zuordnung von Schreibvarianten zu bereits definierten Gattungsnamen von Berufen in diesem Artikel als Lemmatisierung beziehungsweise Normierung bezeichnet, die Zuordnung der normalisierten Schreibweise zu einem Ordnungssystem als Klassifikation. Um hierbei manuellen Aufwand zu verringern, wird ein Algorithmus zur automatisierten Lemmatisierung historischer, deutschsprachiger Berufsangaben entwickelt. Das beste Ergebnis...

Kontextsensitive Entscheidungsfindung zur automatisierten Identifizierung und Clusterung deutschsprachiger Urbanonyme

Jan Michael Goldberg
Viele historische Quellen enthalten zahlreiche Ortsangaben, deren manuelle Zuordnung viele Ressourcen bindet. Um hier Abhilfe zu schaffen wird ein Algorithmus beschrieben, mit dem solche Urbanonyme automatisiert geokodiert werden können. Ebenso ist es möglich, die Orte entsprechend ihrer gemeinsamen historischen Verwaltungszugehörigkeit zu clustern. Probleme wie gleiche Namen bei Ortsbezeichnungen werden vor allem durch eine Einbeziehung weiterer Informationen desselben Kontextes (derselben Quelle) gelöst. Eine Validierung geschieht anhand von etwa 3,4 Millionen überwiegend deutschsprachigen Ortsangaben aus der genealogischen...

Registration Year

  • 2023
    1
  • 2022
    2

Resource Types

  • Text
    3

Affiliations

  • Martin Luther University Halle-Wittenberg
    3