Extraction of tabular information from PDF documents : a graph-based approach

Michael Benedikt Aigner
Eine strukturierte Repräsentation von dem Inhalt von Dokumenten ist die Basis für viele Systeme, ob es sich nun um eine automatisierte Verarbeitung von Dokumenten mithilfe von intelligenten Workflows oder generell um Datenabfragen im World Wide Web handelt. Jedoch ist eine Vielzahl an Dokumenten in unstrukturierten Formaten abgespeichert. Ein weitverbreitetes Beispiel eines solchen Formates ist das Portable Document Format (PDF). Daher liegt ein großes, unerschlossenes Potential in der Ableitung von strukturierter Information aus unstrukturierten Dateiformaten. Große...
This data repository is not currently reporting usage information. For information on how your repository can submit usage information, please see our documentation.