Teil 2: Linked Data und die Bedeutung

Im ersten Beitrag unserer Artikelserie haben Sie erfahren, worum es bei Linked Data geht. Das so genannte Web of Data folgt den Grundprinzipien des Word Wide Web, besteht aber aus verlinkten Datensätzen anstelle von verlinkten Webseiten. Anders als das WWW entsteht das Web of Data aber nicht für Menschen, sondern für Maschinen. Damit eine Maschine dieses Netzwerk aus miteinander verbundenen Daten in unterschiedlichen Formaten auswerten kann, muss sie die Daten verstehen. In unserem heutigen Beitrag erfahren Sie, wie wichtig die Bedeutung von Daten für Linked Data ist.

Verlinkte Webseiten bilden ein Netzwerk aus Informationen für Menschen. Verlinkte Datensätze (Linked Data) bilden ein Netzwerk aus Daten für Maschinen. Genau wie das WWW kann das Web of Data geschlossen oder für jederman frei verfügbar sein kann. Handelt es sich um ein offenes Netzwerk, spricht man auch von Open Linked Data. Datennetzwerke bilden wiederum die Grundlage für eine effiziente maschinelle Auswertung und datengetriebene Entscheidungen, die Ihren Umsatz erhöhen und Ihre Stornoquoten senken können.

Warum ist der Aufbau von Datennetzen so schwierig?

Genauso wie individuell gestaltete Webseiten unterliegen auch Daten und Datensätze einer individuellen Struktur, die sich je nach Anbieter unterscheidet. Das bedeutet, dass sich z. B. die Namen der Datenfelder, deren logische Zusammenhänge und zulässigen Werte je nach Anbieter und Kontext meist erheblich unterscheiden.

Als Mensch kann man verlinkte Webseiten, die sich in Struktur und Inhalt unterscheiden, meist gut und schnell verstehen. Folgt man aber einem Link von einer deutschsprachigen auf eine japanische Webseite, wird man gewöhnlich nicht mal mehr die Buchstaben lesen können. Und genauso geht es einer Maschine mit verlinkten Datensätzen, es sei denn, ein Softwareentwickler hat der Maschine zuvor die Syntax, Grammatik und Bedeutung der „fremden Sprache“ bzw. der Daten beigebracht.

Die Verbindung von einem Datensatz per Hyperlink zu einem anderen Datensatz nach dem Grundpinzip des World Wide Web ist an sich gar nicht so anspruchsvoll: genau wie ein Mensch kann eine Maschine einfach den Links folgen und sich so durch das Datennetz navigieren. Die Bedeutung der Links und der über sie aufrufbaren Datensätze zu verstehen, ist für eine Maschine aber umso anspruchsvoller. Wir Menschen können neue Webseiten verhältnismäßig schnell verstehen, haben aber auch unsere Probleme beim Surfen, wenn die natürliche Sprache zum Beispiel von Deutsch auf Englisch oder Japanisch wechselt. Dann brauchen auch wir ein Verständnis für die fremde Sprache, um die Bedeutung der Inhalte einer Webseite zu verstehen. Maschinen haben dieselben Probleme auf der Ebene der Daten.

Quelle: Wikipedia, Verlinkte Daten aus unterschiedlichen Bereichen

Warum braucht Linked Data die Bedeutung von Daten?

Was tun Sie als Mensch, wenn Sie mit verschiedenen Sprachen zu tun haben, die Sie nicht verstehen? Richtig, Sie werden lernen, die Sprache zu verstehen und zu sprechen, nutzen selbst einen Übersetzungsdienst oder bitten jemanden anderen, die Übersetzung und ggf. auch die gesamte Kommunikation für Sie zu übernehmen. Genauso funktioniert das bei der technischen Vernetzung auch.

Eine Maschine lernt im übertragenen Sinn „eine neue Sprache“ bzw. eine neue Datensatzstruktur (noch) nicht selbstständig. Vielmehr beginnt ein Softwareentwickler damit, Dokumentationen über das fremde Datenmodell zu lesen und eventuell unter Hinzuziehung eines Fachmanns zu verstehen und danach in eine für das eigene Computerprogramm verständliche Form zu übersetzen. Ein Techniker beginnt also mit der Übersetzung von Daten aus dem fremden Datensatz in das eigene Datenformat und zurück, was man als Mapping bezeichnet. Ist dieses Mapping fertig, kann die Maschine also nicht nur die eigenen Daten verstehen, sondern auch die fremden Daten in das eigene Format übersetzen und umgekehrt.

Diese technische Übersetzung ist nicht nur einmalig zu machen, sondern unterliegt einer permanenten Pflege, da sich Änderungen am fremden Datensatz meist auf das eigene Mapping auswirken. Die Datensätze sind also meist eng miteinander gekoppelt und die Vernetzung ist häufig im Programm hart hinein programmiert. Ändert sich der fremde Datensatz, führt das zu Problemen und Änderungsaufwand an der eigenen Software.

Das notwendige Verständnis über die Strukturen von fremden Daten ist gleichermaßen die Voraussetzung und das Kernproblem bei der Verlinkung von Daten. Basiert ein Mapping von Daten aber nicht länger auf der Struktur von Datensätzen, sondern auf der fachlichen Bedeutung der Daten innerhalb dieser Datensätze, dann ist es automatisch flexibler und stabiler bei Veränderungen. Nur wenn wir das Mapping auf die Ebene der Bedeutung heben, kann eine effiziente Verlinkung von Daten und deren Auswertung gelingen. Hierzu muss es also zunächst einmal eine Definition der fachlichen Bedeutung her.

Wie bekommen verlinkte Daten ihre Bedeutung?

Was bedeutet das Englische „given name“ in Deutsch? Die meisten von uns werden Englisch in der Schule gelernt haben und sofort wissen, dass es sich um den „Vornamen“ handelt. Aber was heißt ファーストネーム? Jetzt wird es schon schwieriger. Was sind das für Schriftzeichen? Welche Sprache könnte damit gemeint sein? Was machen Sie, um das herauszufinden? Viele werden nun Google Translate als Übersetzungsdienst nutzen und erkennen, dass es sich um Japanisch handelt und nichts anderes bedeutet als „Vorname“. Die fachliche Bedeutung ist also exakt dieselbe, aber die Syntax ist unterschiedlich. Sie haben also ein Wörterbuch genutzt, um die Bedeutung von Worten zu ermitteln.

Ähnlich funktioniert ein so genanntes semantisches Mapping auf Basis eines Wörterbuches. Dabei geht es beim Lesen eines fremden Datensatzes nicht länger um seine Syntax, sondern nur um die fachliche Bedeutung der Daten. Über so genannte Annotationen wird einem Datensatz die fachliche Bedeutung von Feldern und deren Werten hinzugefügt. Diese Bedeutung ist in so genannten Vokabularen festgelegt. So wie es in der menschlichen Kommunikation verschiedene Sprachen gibt, sind auch unterschiedliche Vokabulare für die Kommentierung von Daten entstanden. Die Bedeutung von Daten spielt bei Linked Data, einem Netzwerk von Daten aus unterschiedlichen Datenquellen, eine enorm große Rolle.

Welches Vokabular sich besonders weit verbreitet hat und warum, erfahren Sie im nächsten Teil unserer Artikelserie, der bald folgt. Im weiteren Verlauf erfahren Sie auch, was das alles für BiPRO-Daten bedeutet.

1 Kommentar