ICD
Interfacing Cultural Data

Das semantische Web

„A new Form of Web content that is meaningful to computers will unleash a revolution of new possibilities.“(1) So beschreiben Tim Berners-Lee, James Handler und Ora Lassila die zukünftige Rolle des semantischen Netzes. Kernelement dieser Revolution des Internets ist ein neuer Zugang zu den Inhalten. Diese wurden bisher nur von Menschen gelesen, verstanden und gedeutet. Nun sollen Vorraussetzungen dafür geschaffen werden, die es auch Maschinen ermöglichen Informationen sinnvoll zu verarbeiten.

Semantik
Der Begriff Semantik bezeichnet die Lehre von der Bedeutung. Dieses Forschungsgebiet findet man in der Philosophie und der Linguistik. Untersucht wird hier die Beziehung zwischen der Ausdrucksform und dem durch sie Bezeichneten. Im Interesse der Semantik steht also die Bedeutung die wir als Menschen den Zeichen in unserer Umwelt zuweisen. Eine tiefergehende Beschreibung dieses Vorgangs würde den Rahmen dieser Arbeit sprengen. Anhand eines Beispiels soll jedoch kurz nachvollzogen werden, wie wir als Menschen einer Ausdrucksform eine Bezeichnung zuordnen. Hierzu nehmen wir einen Begriff der für uns noch keine Bedeutung hat. Dieses „Fremdwort“ soll daraufhin mit Hilfe eines Lexikons genauer bestimmt werden, sodass es einen Sinn erhält. Das Wort „Semang“ werden nur wenige Menschen verstehen. Schlägt man nun seine Bedeutung nach, erhält man folgende Definition:

Semang: Zwergvolk (Negritos) der Mon-Khmer-Sprachgruppe auf der Halbinsel Malakka, noch etwa 4000; Wildbeuter mit Blasrohr; unter Wetterschirmen; allmähl. Übergang zu Hackbau

Anhand dieser Informationen können wir den Begriff „Semang“ in neue Kontexte einordnen. So wissen wir nun, dass es sich um ein Zwergvolk handelt. Hierzu müssen wir aber die Bedeutung des Begriffs „Zwergvolk“ kennen. Vielleicht werden wir das Wort in „Zwerg“ und „Volk“ aufteilen, wodurch wieder neue Begriffe auftauchen, die dann in einer Kombination sinnvoll zusammengebaut werden müssen. Wir haben zwar gelernt, dass Zwerge nur in Märchen existieren, jedoch ergibt dieses Wort in bestimmten Kontexten auch in der Realität Sinn.

Stark vereinfacht gesagt, weisen wir einem Begriff eine Bedeutung zu, indem wir ihn in einen Kontext eingliedern. Das semantische Web soll es ermöglichen auch Maschinen eine solche Zuordnung vollziehen zu lassen. Hierzu müssen im wesentlichen zwei Vorraussetzungen erfüllt werden:
1. die Daten müssen umfassend strukturiert werden, sodass Maschinen sie lesen und zuordnen können
2. es müssen Regeln für diese Zuordnung definiert werden, sodass für Menschen sinnvolle Ergebnisse erzielt werden können.

Es existieren bereits Anwendungen und Strukturen, die als Grundlage für den Umbau des Internets zu einem semantischen Netz dienen können. Dies sind im wesentlichen die Auszeichnungssprache XML, das Indexierungssystem RDF und Datenbanken die Ontologieserver genannt werden.

XML (eXtensible Markup Language)
Die Inhalte im Internet werden bisher vor allem mit Hilfe von HTML (HyperText Marup Language) zur Verfügung gestellt. XML ist wie HTML eine Auszeichnungssprache, die dadurch charakterisiert ist, dass in den Text mit Hilfe von Befehlen zusätzliche Informationen eingebaut werden können (z.B. ein Begriff der mit dem Tag <b> ausgezeichnet ist, erscheint auf dem Bildschirm fett). Beide stammen von SGML (Standard Generalized Markup Language) ab, das für den Aufbau von großen Datenbankprojekten entwickelt wurde. XML steht im Vergleich zu HTML SGML insofern näher, als dass es noch die Möglichkeiten einer Metaauszeichnungssprache besitzt. Dass heißt, man kann eigene Befehle (Tags) definieren, denen eine bestimmte Funktion zugewiesen werden kann. Diese Eigenschaft ist hinsichtlich der Strukturierung von Daten von großer Bedeutung. Anhand eines Beispiels soll dies klar werden:

HTML Code:
<p>
Frank Sebastian <br>
<b>Finke</b> <br>
Maoweg 2 <br>
A-1190 Wien <br>
geb. 2. April 1979 <br>
</p>

XML Code:
<person id = „34922“>
<vorname>Frank</vorname>
<vorname>Sebastian</vorname>
<zuname>Finke</zuname>
<adresse>Maoweg 2</adresse>
<plz>A-1190</plz>
<ort>Wien</ort>
<geburtstag>
<tag>2</tag>
<monat>April</monat>
<jahr>1979</jahr>
</geburtstag>
</person>

Auf diese Weise erstellt XML aus Begriffen, die in einer Internetseite vorkommen eine Art Datenbank, die es zum Beispiel ermöglicht, gezielte Abfragen zu generieren, da Auszeichnungen existieren, denen Inhalte zugeordnet sind. Zudem sind Bezüge innerhalb der Auszeichnungen in einer DTD (document type definition) festgelegt, die die Struktur der Inhalte des Dokuments genau definieren. Die DTD kann zum Beispiel bestimmen, dass zu jeder <person> mindestens ein <vorname>, ein <zuname> und ein <ort> hinzugefügt wird. Diese Anordnung auf der Ebene der Daten mit Hilfe der DTD dient dem Computer dazu, Informationen zu erkennen und einzuordnen. Die Visualisierung der Inhalte erfolgt mit Hilfe von stylesheets. Sie regeln die Darstellung auf dem Bildschirm und bilden damit eine Ebene der Daten, die uns Menschen zugänglich ist.

RDF
Wie können nun Begriffe, die mit Hilfe von XML ausgezeichnet worden sind über ein Dokument hinaus verfügbar gemacht werden? Ein Ansatz hierfür bietet das RDF (resource description framework). Wie der Name sagt, handelt es sich hierbei um ein System dass Ressourcen beschreibt. Ressourcen sind Einheiten denen ein URI (universal resource identifier) zugewiesen werden kann. Ein URI ist ein Adresscode, der den Ort eines Elements bestimmt. Mit Hilfe eines URI kann fast alles was an das Internet angeschlossen ist lokalisiert werden. Herkömmliche Ressourcen sind Internetseiten, Bilder, Dateien und ähnliches. Die Möglichkeit immer mehr Gegenstände aus unserem Alltag mit dem Internet zu verbinden, führt dazu, dass die Vielfalt der Ressourcen immer weiter zunimmt. So können zum Beispiel inzwischen auch Toaster, Stereoanlagen, Telefonzellen mit einer URI versehen werden. Um hierfür eine einheitliche Beschreibung zu finden, die über eine reine Ortsbestimmung hinaus geht und noch weitere Informationen über die Ressource liefert, soll ein RDF eingeführt werden. Die Grundelemente des RDF sind Statements. Das Statement zu einer Ressource besteht aus drei Teilen: einmal die URI der Ressource (Subjekt), dann ein Wert (Objekt), der dieser Ressource zugeordnet wird und eine Eigenschaft (Prädikat), die den Bezug zwischen Ressource und Wert beschreibt. Das folgende Beispiel illustriert diese Einteilung:

Die Internetseite http://www.maoweg.de/home.html soll bestimmt werden, indem ihr der Autor Frank Sebastian Finke zugewiesen wird. Ordnet man die oben eingeführten Begriffe diesen Elementen zu, so kann man sagen, dass die Ressource „http://www.maoweg.de/home.html“ den Wert „Frank Sebastian Finke“ mit der Eigenschaft „Autor“ hat. Das RDF - Statement wird mit Hilfe von XML übertragen. Der entsprechende Code sieht folgendermaßen aus:

<?xml version="1.0"?>
<rdf:RDF
xmlns: rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
xmlns: DC="http://purl.org/metadata/dublin_core#">
<rdf:Descriptionabout=http://www.maoweg.de/home.html>
<DC:Creator>Frank Sebastian Finke</DC:Creator>
</rdf:Description>
</rdf:RDF>

Ressource (Subjekt)
Wert (Objekt)
Eigenschaft (Prädikat)

Neben dem Tripel beinhaltet der XML-Code noch die Angabe der XML Version (Z. 01), ein Tag zwischen dem die RDF - Daten stehen (Z.02 + Z.08), die Bezeichnung des grundlegenden RDF – Schemas, mit der Abkürzung rdf zu Beginn (Z.03) und die Angabe zum Schema nach dem die Eigenschaften definiert sind mit der Abkürzung des Eigenschaften - Schemas (Z.04). Das Statement zur Ressource steht zwischen dem Description – Tag (Z.05+ 07).

Das in diesem Fall verwendete Eigenschaften – Schema (Z.04) trägt den Namen Dublin Core (DC). An seiner Stelle könnte auch ein selbstdefiniertes Schema stehen. Um jedoch die Prädikate zu vereinheitlichen und damit global verwertbar zu machen, wurden standardisierte Schemata eingeführt. Es ist im Sinne des RDFs diese Standards zu verwenden, sodass die Statements von möglichst vielen Anwendern vergleichbar verarbeitet werden können, um dem Ziel einer Strukturierung der Daten zu Gunsten einer Systematisierung der Inhalte näher zu kommen.

links:
Das semantische Netz:
http://www.scientificamerican.com/2001/0501issue/0501berners-lee.html(1)

XML:
http://www.boku.ac.at/htmleinf/xmlkurz.html

XML und RDF:
- http://www.zdnet.de/internet/artikel/tech/199901/rdf_00-wc.html
- http://ls6-www.informatik.uni-dortmund.de/ir/teaching/pg/pg341/seminar/rdfxml/Seminar-XML-RDF.html
- http://www.hbz-nrw.de/arbeitverbund/ediss/07121999.pdf

Ontologie Server


This is a Manila Site

 

This site is using the MinimalWhite theme.