Bremen,
SQL hat sich als ungemein erfolgreich bei Geschäfts- und Verwaltungsdaten erwiesen. Die „Big Data“ der Wissenschaften sind jedoch anders strukturiert. Statt einfacher Tabellen bestehen sie oft aus multidimensionalen „Datenwürfeln“, in der Informatik „Arrays“ genannt. In den Geowissenschaften z.B. umfasst dies 1-dimensionale Sensordaten, 2-D Satellitenbilder, 3-D x/y/t Bild-Zeitreihen und x/y/z geophysikalische Voxeldaten sowie 4-D x/y/z/t Wetterdaten. In den Biowissenschaften gibt es sie in der Laserscan-Mikroskopie; auch Gehirnscans gehören dazu. Und ihr Volumen kann noch um ein Vielfaches wachsen, wenn sie in den Astrowissenschaften für Simulationen des ganzen Universums eingesetzt werden.
Hier stößt SQL an seine Grenzen, denn es ist nicht in der Lage, solche Arrays zu finden, zu filtern und zu prozessieren. Konsequenterweise werden diese Daten daher größtenteils außerhalb der Datenbanken geführt. Diesen Mangel hat Peter Baumann, Professor für Informatik an der Jacobs University, schon vor langer Zeit erkannt. Seitdem arbeitet er gemeinsam mit seiner Forschungsgruppe daran, SQL entsprechend zu erweitern. Mit dem rasdaman-System hat die Gruppe ein neues Technologiefeld, die Array-Datenbanken, geschaffen.
Jüngst wurde in einer Technologie-Demonstration eindrucksvoll gezeigt, wie über 1.000 Computer in einer Cloud zusammen eine einzige komplexe Datenbankanfrage bearbeiten. Diese verteilte Anfrage-Verarbeitung bringt eine massive Erhöhung der Geschwindigkeit mit sich. Damit lassen sich wissenschaftliche Herausforderungen auf Multi-Petabyte-Datenwürfeln angehen, die bisher unlösbare Probleme dargestellt haben.
Mittlerweile nutzen internationale Datencenter dieses Werkzeug, um Wissenschaftlern neue Einsichten in ihre raumzeitlichen Datenwürfel zu ermöglichen. Die rasdaman Technologie wird von der NASA, ESA, British Geological Survey, Plymouth Marine Laboratory, dem Deutschen Wetterdienst und vielen anderen eingesetzt.
Beim ISO-Treffen in der vergangenen Woche in Beijing/China waren sich sämtliche nationalen Delegationen über die Wichtigkeit von Arrays in SQL einig. Nach detaillierter Prüfung aller verfügbaren Optionen hat die SQL-Arbeitsgruppe dem Vorschlag Baumanns als Basis für die weiteren Schritte zugestimmt. Der neue Standard wird ISO 9075 SQL/MDA heißen, wobei MDA für “Multi-Dimensional Arrays” steht.