Mobile-Menu

Blick ins Grid Computing Centre Karlsruhe

GridKA verwaltet Messdaten im Petabyte-Bereich

Seite: 2/2

Anbieter zum Thema

Zur Verfügung stehen heute auf SCSI basierende NAS- und SAN-Speicher mit 500 Terabyte sowie 1,500 Terabyte mit Server angeschlossen. Die Server wiederum sind mit Ein- und Zehn-Gigabit-Links mit den Clusterknoten verbunden. „Das SAN spielt seine Stärke bei Datenbanken und verteilten Filesystemen aus. Die NAS-Konfiguration der Speicher in Kombination mit unserer Datenmanagement-Software nutzt die Flexibilität und die einfachere Konfigurierbarkeit der Middleware-Schicht. Damit ist eine sehr leistungsstarke Datenspeicherung möglich, welche die Vorteile beider Techniken verbindet“, erläutert Klaus-Peter Mickel, Leiter des GridKa und Chef des Institutes für Wissenschaftliches Rechnen. „Wir können so jederzeit im laufenden Betrieb die Speicherkapazität sowohl bezüglich des Volumens als auch im Hinblick auf die Leistung anpassen und erweitern.“

dCache trennt Daten und Metadaten

In Karlsruhe experimentieren die Techniker derzeit noch mit dem neuen Datenmanagementsystem dCache. Kennzeichnend für dieses ist die Trennung von Daten und Metadaten – beispielsweise Dateiname und -eigenschaften – sowie die Anbindung an die Backups rauschen in Echtzeit und mit einer Geschwindigkeit von 10 Gigabit pro Sekunde über hochperformante Datenleitungen vom CERN nach Karlsruhe. Dort werden sie direkt auf den bereitgehaltenen Magnetplatten und Bänder gesichert.

Datenpuffer sind nicht vorgesehen, wohl aber eine dreifache Redundanz, denn jedes Experiment wird von mindestens drei der weltweit zehn Tier-1-Zentren mitgeschnitten. 10 Gigabit pro Sekunde aufzuzeichnen, das schien noch vor wenigen Jahren unmöglich. Auf jeden Fall war es eine sportliche Herausforderung, der sich die beteiligten Techniker in Etappen stellten.

2003 gelang es am CERN, mithilfe von 45 dort installierten 9940B-Bandlaufwerken von Storagetek 1,2 Gigabyte pro Sekunde auf Magnetband zu sichern. 2006 waren es bereits zwei Gigabyte. Dieses Jahr wollen die Forscher in einen Bereich von 4,5 Gigabyte pro Sekunde kommen. Das wäre dann ausreichend, um die Daten aller Experimente zu sichern. Auch die Datenübertragung zwischen den einzelnen Schichten wurde schrittweise verbessert. 2005 realisierten die Physiker erstmals 500 Megabyte pro Sekunde für die Dauer eines Tages. 2006 rauschten über einen Zeitraum von 16 Tagen 1.000 Megabyte in der Sekunde durch die Leitungen. Wenn man bedenkt, dass nicht jedes Tier-1-Zentrum alle Daten erfasst, reicht diese Performance aus.

Zehn Petabyte Messdaten pro Jahr

Die Messdaten summieren sich pro Jahr und Tier-1-Zentrum auf zehn Petabyte. Sie müssen zwingend über viele Jahre – sogar Jahrzehnte – aufbewahrt werden. Schließlich handelt es sich um Statistik. Und je mehr Daten vorhanden sind, desto klarer werden die Botschaften, die die Formeln offenbaren. Daraus folgt, dass die Magnetbandkapazität eines jeden Tier-1-Zentrums während der etwa 15-jährigen Laufzeit der LHC-Experimente Jahr für Jahr um etwa vier Petabyte wächst. Im Jahr 2022 dürften in jedem Zentrum stattliche 60 Petabyte Daten liegen. Der Grundstein hierfür ist bereits heute gelegt.

Artikelfiles und Artikellinks

(ID:2010267)