Im Jahr 1920 notiert – heute digitalisiert

Eine KI, die Papierarchive digital nutzbar macht

So lief es früher

OGE (Open Grid Europe GmbH) ist einer der führenden Fernleitungsnetzbetreiber Europas. Ein Projekt zum Prüfen des Fernleitungsnetzes auf seine Wasserstofftauglichkeit stellt die Verantwortlichen vor große Herausforderungen. Um diese Tauglichkeit beurteilen zu können, müssen sie die gesamte technische Dokumentation aller verbauten Materialien auswerten. Die Daten liegen nur in Form eingescannter Dokumente vor. Dokumente, die teilweise bis ins Jahr 1920 zurückreichen. Dazu gehören Herstellerangaben, Bauteillisten, Materialbestandteile sowie technische und chemische Eigenschaften aus Prüfzeugnissen. Das zuverlässige Extrahieren und Verfügbarmachen relevanter Informationen ist die Voraussetzung, um notwendige Umrüstungen für den Infrastrukturwechsel kostenoptimal durchführen zu können. Die Datenmenge und die Heterogenität des Ausgangsmaterials machen eine manuelle Auswertung unmöglich.

Dann kommt KI ins Spiel

KI-Anwendungen ermöglichen es – trotz des heterogenen Ausgangsmaterials – große Teile der Dokumentenauswertung zu automatisieren. Schlüsselfunktionen sind dabei die sogenannte Key Value Detection sowie die Tabellenextraktion. Einen großen Mehrwert bringt eine KI auch bei der Schrifterkennung, vor allem bei schlechten Scan- oder Dokumentqualitäten oder Formularen mit handschriftlichen Einträgen.

Fachleute setzen die Key Value Detection insbesondere bei der Extraktion spezifischer Informationen ein, um diese in eine Datenbank überführen zu können. So wird zu einem bekannten Schlüssel (Key), wie beispielsweise einem „Hersteller“ oder „Prüfgegenstand“, der passende Wert (Value) in der näheren Umgebung im Dokument gesucht. Da bestimmte Seiten – beziehungsweise deren Form – häufiger in Dokumenten vorkommen, hilft eine vorgeschaltete Seitenklassifikation dabei, die Ergebnisse zu verbessern. Abhängig von der Klasse wird die Key-Value-Extraktion entsprechend konfiguriert, wodurch Suchbereiche präzisiert und Extraktionsfehler minimiert werden.

Bei der Extraktion aus Tabellen kommt es darauf an, tabellarische Strukturen – auch ohne eine gezeichnete Tabelle – zu erkennen. Anhand der erkannten Tabellenstruktur werden die Informationen aus einer Zelle in Zusammenhang mit einer vorhandenen Spalten- und/oder Zeilenbeschriftung gebracht. Die Kombination aus Spaltenbeschriftung und Zellwert ergibt dann wieder ein Key-Value-Pärchen, welches extrahiert wird.

Wir können jetzt zum ersten Mal ein historisch gewachsenes System einheitlich darstellen und auch auswerten.

Dr. Daniel Bick, Referent für Wasserstofftechnologie, OGE

So ist es jetzt

Die eingesetzten KI-Verfahren sorgen dafür, dass die Daten aus den eingescannten PDF-Dateien in strukturierter Form vorliegen. Die Verantwortlichen entwickelten ein Datenschema für die zu extrahierenden Informationen und bauten eine Datenbank auf. Auf die Datenbank haben verschiedene Systeme Zugriff. Zusätzlich ist der gesamte Dokumentenbestand mittels Suchinterface vollständig durchsuchbar, so dass auch nicht extrahierte Informationen einfach auffindbar sind.

Das Projekt zeigt, welche Rolle KI-Anwendungen bereits in der täglichen Arbeit spielen. Für uns verwandelten sie teils hundert Jahre alte handschriftlich verfasste Informationen zu Datensätzen, mit denen wir weiterarbeiten konnten. Und das mit einer Präzision, die uns immer noch tagtäglich beeindruckt.

Dr. Daniel Bick, Referent für Wasserstofftechnologie, OGE

Whitepaper

Die ausführliche Beschreibung des Projektes "Wie hebt man einen Datenschatz ins digitale Zeitalter?" stellen wir gerne als Download zur Verfügung.

Zum Download

Für wen eignet sich dieser Ansatz?

Für alle Unternehmen mit Datenbeständen in Papierform, die bisher kaum oder nur eingeschränkt digital nutzbar sind. Für alle Unternehmen, die einen konstanten Input an Dokumenten haben. Insbesondere ist für Gasnetzbetreiber eine spezialisierte Gesamtlösung verfügbar, die in Form einer Kooperation von adesso und OGE angeboten wird.

Für wen im Unternehmen ist der Anwendungsfall interessant?

Für alle Verantwortlichen, in deren Aufgabenbereich Papierarchive eine Rolle spielen.

Hintergründe für die technisch Interessierten:

Key Value Detection, Natural Language Processing, Tabellenextraktion

Sie haben Fragen?

Künstliche Intelligenz ist kein Ersatz für menschliche Diskussion

Sie überlegen, welche Möglichkeiten KI Ihrem Unternehmen eröffnen kann? Sie wollen mehr über Anwendungsfälle und Technik erfahren? Wir haben keine Standardantworten im Gepäck – aber wir bringen unser Fachwissen, unsere Neugier auf Ihr Geschäft und unsere Leidenschaft für Technologie mit.

Wir freuen uns darauf, mit Ihnen ins Gespräch zu kommen.

Kontakt