Suchen

DNA Data Storage Kann man IoT-Daten bald als DNA speichern?

Autor / Redakteur: Oliver Schonschek / Nico Litzel

DNA kann nicht nur Erbgutinformationen speichern, sondern jede Art von Daten. DNA Data Storage könnte deshalb zu einem wichtigen Speicherkonzept im Internet of Things werden – mit enormer Speicherkapazität und langer Haltbarkeit. Auch wenn noch viel Forschungsarbeit notwendig ist, gibt es bereits erste kommerzielle Ansätze.

Firmen zum Thema

Forscher von Microsoft und der University of Washington haben ein vollautomatisches System demonstriert, das Daten in synthetischer DNA speichert und abruft – ein wichtiger Schritt, um die Technologie aus dem Forschungslabor in kommerzielle Rechenzentren zu verlagern.
Forscher von Microsoft und der University of Washington haben ein vollautomatisches System demonstriert, das Daten in synthetischer DNA speichert und abruft – ein wichtiger Schritt, um die Technologie aus dem Forschungslabor in kommerzielle Rechenzentren zu verlagern.
(Bild: Microsoft)

Das rasante Wachstum der weltweit verfügbaren Daten bringt Probleme mit sich. Allein schon die Speicherung und Archivierung relevanter Daten bildet eine große Herausforderung, wenn man bedenkt, dass nach einer Prognose von IDC das weltweite Datenvolumen von 33 Zettabyte im Jahr 2018 auf 175 Zettabyte im Jahr 2025 anwachsen soll.

Der Bedarf an Speichermedien mit hoher Kapazität und langer Haltbarkeit ist schon heute groß und wird noch deutlich zunehmen, gerade im Bereich des Internet of Things. Deshalb sind neue Speichertechnologien ein Thema, mit dem sich IoT-Verantwortliche rechtzeitig auseinandersetzen sollten.

Neue Speichertechnologien könnten helfen

Auf der Suche nach neuen Speichermöglichkeiten für die stetig anwachsenden Datenberge im IoT lohnt es sich, den Blick auch auf biologische oder biochemische Speichermedien zu richten, nicht nur auf optische und magnetische. Bei Speicherung von Informationen im Bereich der Biologie denkt man an das menschliche Gehirn, aber auch an die Speicherung der Erbinformationen und damit an DNA (deoxyribonucleic acid/Desoxyribonukleinsäure).

Tatsächlich gibt es bereits seit einigen Jahren Forschungsprojekte, welche die Speicherung von Daten auf molekularer Ebene in DNA-Molekülen ermöglichen sollen, indem Fortschritte in der Biotechnologie bei der Synthese, Manipulation und Sequenzierung von DNA genutzt werden, um neue Arten von Speichermedien zu entwickeln. Forscher von Microsoft und der University of Washington zum Beispiel arbeiten zusammen, um DNA als hochdichtes, langlebiges und einfach zu manipulierendes Speichermedium zu verwenden.

Microsoft Research erklärt dazu, dass die Verwendung von DNA zur Archivierung von Daten eine attraktive Möglichkeit ist, da sie extrem dicht (bis zu etwa 1 Exabyte pro Kubikmillimeter) und langlebig ist (Halbwertszeit von über 500 Jahren).

Die Biotechnologie habe enorm von den Fortschritten in der Siliziumtechnologie profitiert, die von der Computerindustrie entwickelt wurden, so Microsoft. Jetzt sei es an der Zeit, dass Computerarchitekten die Einbeziehung von Biomolekülen als integralen Bestandteil des Computerdesigns in Betracht ziehen.

Forschungsprojekte zeigen den Weg zu DNA Data Storage

Microsoft und die University of Washington arbeiten an der Entwicklung von Algorithmen und molekularen Computertechnologien zum Codieren und Abrufen von Daten in synthetischer DNA.

„Unser oberstes Ziel ist es, ein System in Produktion zu bringen, das für den Endbenutzer wie jeder andere Cloud-Speicherdienst aussieht. Bits werden an ein Rechenzentrum gesendet und dort gespeichert und erscheinen nur dann, wenn der Kunde sie wünscht“, sagte die Microsoft-Forscherin Karin Strauss.

Der Weg dorthin kann im Labor so aussehen: Informationen werden in synthetischen DNA-Molekülen gespeichert, die künstlich erstellt wurden (also nicht in DNA von Menschen oder anderen Lebewesen). Die Informationen können verschlüsselt werden, bevor sie an das System gesendet werden. Während hochentwickelte, biotechnologische Maschinen wie Synthesizer und Sequenzer bereits wichtige Teile des Prozesses ausführen, erforderten viele der bisherigen Zwischenschritte manuelle Arbeit im Forschungslabor. In einem kommerziellen Umfeld wäre dies jedoch nicht realisierbar, sagte Chris Takahashi, leitender Wissenschaftler an der Paul G. Allen School of Computer Science & Engineering der University of Washington.

„Es können nicht viele Leute mit Pipetten in einem Rechenzentrum herumlaufen – es ist zu anfällig für menschliches Versagen, es ist zu kostspielig, und der Platzbedarf wäre zu groß“, sagte Takahashi.

Damit die Technik als kommerzielle Speicherlösung sinnvoll ist, müssen die Kosten sowohl für die Synthese von DNA als auch für den Prozess, der die gespeicherten Informationen extrahiert, gesenkt werden. Es muss möglichst viel automatisiert werden.

Der Sprung vom Biolabor ins Rechenzentrum

Ein automatisiertes DNA-Datenspeichersystem verwendet eine Software, welche die Einsen und Nullen digitaler Daten in As, Ts, Cs und Gs umwandelt, aus denen die Bausteine der DNA bestehen. Anschließend werden kostengünstige, weitgehend handelsübliche Laborgeräte verwendet, um die erforderlichen Flüssigkeiten und Chemikalien in einen Synthesizer zu leiten, der hergestellte DNA-Schnipsel erstellt und in ein Vorratsgefäß schiebt.

Wenn das System die Informationen abrufen muss, fügt es andere Chemikalien hinzu, um die DNA ordnungsgemäß vorzubereiten, und verwendet Mikrofluidikpumpen, um die Flüssigkeiten in andere Teile des Systems zu befördern, welche die DNA-Sequenzen lesen und sie wieder in Informationen umwandeln, die ein Computer verstehen kann.

„Wir sehen definitiv eine neue Art von Computersystem, das hier geboren wird, wo man Moleküle verwendet, um Daten und Elektronik zur Steuerung und Verarbeitung zu speichern“, lässt Luis Ceze, Professor an der University of Washington, verlauten.

Aber auch von anderen Universitäten kommen Meldungen zu Fortschritten bei DNA Data Storage:

DORIS (Dynamic Operations and Reusable Information Storage)

Forscher der North Carolina State University haben demnach einen grundlegend neuen Ansatz für DNA-Datenspeichersysteme entwickelt, mit dem Benutzer Daten lesen oder ändern können, ohne sie zu zerstören, und der die Skalierung der Systeme für den praktischen Gebrauch vereinfacht.

„Die meisten vorhandenen DNA-Datenspeichersysteme basieren auf der Polymerasekettenreaktion (PCR), um auf gespeicherte Dateien zuzugreifen. Dies ist sehr effizient beim Kopieren von Informationen, stellt jedoch einige erhebliche Herausforderungen dar“, sagt Albert Keung, einer der Forscher. „Wir haben ein System namens Dynamic Operations and Reusable Information Storage (DORIS) entwickelt, das nicht auf PCR basiert. Das hat uns geholfen, einige der Haupthindernisse für die praktische Implementierung von DNA-Datenspeichertechnologien zu überwinden.“

Gegenwärtige Systeme stützen sich auf DNA-Sequenzen, die als „Primerbindungssequenzen“ bezeichnet werden und an die Enden von DNA-Strängen hinzugefügt werden, die Informationen speichern. Kurz gesagt, dient die Primerbindungssequenz von DNA als Dateiname. Wenn man eine bestimmte Datei möchte, ruft man die DNA-Stränge ab, die diese Sequenz tragen.

Systeme, die auf PCR beruhen, müssen die Temperatur des gespeicherten genetischen Materials drastisch erhöhen und senken, um die doppelsträngige DNA auseinanderzureißen und die Primerbindungssequenz aufzudecken. Dies führt dazu, dass die gesamte DNA – die Primerbindungssequenzen und die Datenspeichersequenzen – in einer Art genetischer Suppe frei schwimmt. Bestehende Technologien können dann die Suppe sortieren, um die relevante DNA mithilfe von PCR zu finden, abzurufen und zu kopieren.

Die Temperaturschwankungen sind für die Entwicklung praktischer Technologien problematisch, und die PCR-Technik selbst verbraucht allmählich die Originalversion der Datei, die abgerufen wird.

DORIS verfolgt einen anderen Ansatz. Anstatt doppelsträngige DNA als Primerbindungssequenz zu verwenden, verwendet DORIS eine Art Überhang, der aus einem DNA-Einzelstrang besteht – wie ein Schwanz, der hinter der doppelsträngigen DNA strömt, die tatsächlich Daten speichert. Während herkömmliche Techniken Temperaturschwankungen erforderten, um die DNA aufzureißen, um die relevanten Primerbindungssequenzen zu finden, bedeutet die Verwendung eines einzelsträngigen Überhangs, dass DORIS die geeigneten Primerbindungssequenzen finden kann, ohne die doppelsträngige DNA zu stören.

„Mit anderen Worten, DORIS kann bei Raumtemperatur arbeiten, was die Entwicklung von DNA-Datenmanagementtechnologien, die in realen Szenarien realisierbar sind, erheblich erleichtert“, sagt James Tuck, Professor für Elektro- und Computertechnik am NC State.

„Mit DORIS können wir die Informationsdichte des Systems erheblich erhöhen und die Skalierung auf wirklich große Datenbanken vereinfachen“, ergänzt Kevin Lin, Doktorand am NC State.

„Wir haben einen funktionalen Prototyp von DORIS entwickelt, damit wir wissen, dass er funktioniert“, hält Keung fest. „Wir sind jetzt daran interessiert, es zu vergrößern, zu beschleunigen und in ein Gerät zu integrieren, das den Prozess automatisiert und benutzerfreundlich macht.“

Codierungsalgorithmus macht DNA Data Storage weniger fehleranfällig

Ein Forschungsteam an der University of Texas hat eine neue Technik entdeckt, mit der Informationen mit höherer Genauigkeit in DNA gespeichert werden können. Die von den Forschern entwickelte Sprache vermeidet fehleranfällige oder schwer lesbare DNA-Abschnitte.

„Der entscheidende Durchbruch ist ein Codierungsalgorithmus, der das genaue Abrufen der Informationen ermöglicht, selbst wenn die DNA-Stränge während der Lagerung teilweise beschädigt werden“, erläutert Ilya Finkelstein, Associate Professor für Molekularbiowissenschaften.

„Wir brauchen eine Möglichkeit, diese Daten so zu speichern, dass sie verfügbar sind, wann und wo sie benötigt werden, und zwar in einem lesbaren Format“, so Stephen Jones, ein Wissenschaftler, der an dem Projekt mit Finkelstein zusammengearbeitet hat.

DNA ist fehleranfällig. Wenn ein genetischer Code Fehler aufweist, unterscheidet er sich erheblich von den Fehlern eines Computercodes. Fehler in Computercodes werden häufig als leere Stellen im Code angezeigt. Fehler in DNA-Sequenzen zeigen sich nicht als Lücken. Das Problem dabei ist, dass sich beim Löschen oder Hinzufügen in der DNA dann die gesamte Sequenz verschiebt.

Früher, wenn Informationen in DNA gespeichert wurden, wurden die Informationen, die gespeichert werden mussten, zehn- bis 15-mal wiederholt. Wenn die Informationen gelesen wurden, wurden die Wiederholungen verglichen, um jegliche Einfügungen oder Löschungen zu beseitigen.

„Wir haben einen Weg gefunden, die Informationen eher wie ein Gitter aufzubauen“, sagt Jones. „Jede Information verstärkt andere Information. Auf diese Weise muss es nur einmal gelesen werden.“

Speicherung von Biohackers

Auch in Deutschland finden wichtige Forschungsprojekte statt, um DNA Data Storage von den Laboren in die Rechenzentren zu bringen: „Wir arbeiten daran, DNA Data Storage günstiger und schneller zu machen“, so Professor Reinhard Heckel von der Technischen Universität München (TUM). Gemeinsam mit seinem Kollegen Professor Robert Grass von der ETH Zürich hat er eine Methode entwickelt, die das Speichern großer Datenmengen auf DNA für über 1.000 Jahre stabil macht. Dabei kommt ein Verfahren zum Einsatz, das DNA-Stränge in Nanometer große Kügelchen aus Silica, eine Glas-Art, kapsuliert und sie damit stabil verpackt.

Zur Demonstration der Technologie wurde die erste Folge der neu erschienenen TV-Serie Biohackers in Form von synthetischer DNA gespeichert. Hierzu erläutert Professor Heckel: „Biohackers war ein Meilenstein in Richtung Kommerzialisierung, doch es liegt noch ein weiter Weg vor uns. Wenn sich die Technologie durchsetzt, ist Großes möglich. Ganze Bibliotheken, sämtliche Filme, Fotos, Musik, Wissen jeglicher Art – soweit in Daten abbildbar – könnte auf DNA gespeichert werden und der Menschheit somit für immer zur Verfügung stehen.“

Zahl der Lösungsanbieter steigt

Für die Realisierung von DNA Data Storage sind eine Reihe von Einzelschritten technisch und kommerziell nutzbar umzusetzen:

  • 1. die rechnerische Umwandlung digitaler Daten in DNA-Daten,
  • 2. die Synthese der künstlichen DNA-Moleküle,
  • 3. die Speicherung der DNA-Probe als Backup,
  • 4. das Decodieren der DNA, um wieder die digitalen Daten auslesen zu können.

Hier laufen noch viele Forschungsprojekte. Aber es gibt auch bereits kommerzielle Angebote für bestimmte Bereiche.

Die Liste der Anbieter und Start-ups in Teilbereichen von DNA Data Storage enthält Namen wie DNA Script, Nuclera Nucleics, Evonetix, Molecular Assemblies, Catalog DNA, Helixworks und Twist Bioscience.

Diese Namen klingen in der Storage-Welt noch ungewöhnlich, doch sie könnten schon bald in einem Zug mit den heute bekannten Storage-Marktführern genannt werden. DNA Data Storage klang vor einigen Jahren wie Science-Fiction, doch die neue Speichertechnologie könnte bald einen Durchbruch schaffen, der die Speicherwelt und damit auch das IoT deutlich verändern könnte.

Dieser Artikel stammt von unserem Partnerportal Industry of Things. Verantwortlicher Redakteur: Sebastian Human

(ID:46934994)