Mobile-Menu

Datensammlungen für KI und ML Was sind Trainingsdaten (Training Data)?

Von Dipl.-Ing. (FH) Stefan Luber 3 min Lesedauer

Trainingsdaten sind Daten, die verwendet werden, um KI- und Machine-Learning-Modelle zu trainieren. Sie bestehen aus Sammlungen von Texten, Bildern, Videos, Messwerten oder anderen Daten. Die Modelle lernen mithilfe der Trainingsdaten, Muster und Zusammenhänge zu erkennen und daraus Entscheidungen oder Vorhersagen abzuleiten.

Um KI- und Machine-Learning-Modelle zu trainieren, werden enorme Mengen an Daten benötigt.(Bild:  Midjourney / KI-generiert)
Um KI- und Machine-Learning-Modelle zu trainieren, werden enorme Mengen an Daten benötigt.
(Bild: Midjourney / KI-generiert)

Daten, die für das Training von KI- und Machine-Learning-Modellen zum Einsatz kommen, werden als Trainingsdaten (Training Data) bezeichnet. Es handelt sich um Datensätze, die abhängig vom zu trainierenden Modell aus Sammlungen verschiedener Arten von Daten wie Texten, Bildern, Messdaten, Audio, Video oder anderen bestehen. Während des Trainings lernen die Modelle, Muster und Zusammenhänge in den Trainingsdaten zu erkennen und daraus Entscheidungen oder Vorhersagen abzuleiten oder Inhalte zu generieren. Die Qualität der Trainingsdaten und die Menge an Informationen in den Datensammlungen haben großen Einfluss auf die spätere Genauigkeit, Leistungsfähigkeit und Zuverlässigkeit der KI-Modelle.

Trainingsdaten können aus kostenlosen oder kommerziellen Quellen stammen. Mittlerweile gibt es im Internet eine große Menge verschiedener Arten von Datensätzen, die für das Training von KI-Modellen verwendet werden können. Sie bestehen beispielsweise aus Datensammlungen frei verfügbarer Inhalte des Internets wie Texten und Bildern von Webseiten oder Wikipedia-Seiten. Trainingsdaten werden teils aber auch konkret für bestimmte Aufgaben oder Modelle kommerzieller Anbieter zusammengestellt. Beispiele für verfügbare Trainingsdaten sind ImageNet, ein Datensatz mit gelabelten Bildern, COCO (Common Objects in Context), ein Datensatz zur Objekterkennung, LibriSpeech, ein Sprachdatensatz mit Audioaufnahmen und Transkriptionen, oder OpenAI WebText, eine riesige Textsammlung aus Webdokumenten, und viele mehr.

Teilweise werden bei der Sammlung und Verwendung von Trainingsdaten Urheberrechte verletzt. Die KI-Betreiber oder -Entwickler berufen sich dabei auf eine Ausnahmeregelung für Text- und Data-Mining (TDM-Schranke), bei der unter bestimmten Voraussetzungen und zu Zwecken der wissenschaftlichen Forschung die Sammlung und Verwendung urheberrechtlich geschützter Daten auch ohne Einwilligung des Rechteinhabers zulässig ist. Inwieweit diese Regelung für die verschiedenen KI-Anwendungen aber tatsächlich zutreffend ist, bedarf noch einer umfangreichen rechtlichen Klärung.

Aufbau und Zusammensetzung der Trainingsdaten

Abhängig vom zu trainierenden KI-Modell und der jeweiligen Art des Lernens, ob überwacht oder unüberwacht, sind die Trainingsdaten unterschiedlich aufgebaut. So bestehen sie beispielsweise entweder nur aus Eingabedaten, aus denen das Modell selbständig Muster und Zusammenhänge ableiten soll, oder aus Eingabedaten und den dazugehörigen Ausgabewerten, mit deren Hilfe das Modell die zu erzielenden Ergebnisse lernt.

Trainingsdaten mit den zugehörigen Ausgabewerten lassen sich beispielsweise für Klassifizierungs- oder Regressionsaufgaben verwenden. Soll ein KI-Modell beispielsweise Tiere anhand von Bildern erkennen, wird es mit Daten trainiert, die aus einer großen Menge verschiedener Tierbilder bestehen und mit dem jeweiligen Ausgabewert (Label) des zu erkennenden Tiers annotiert sind. KI-Modelle können für bestimmte Aufgaben aber auch mit ungelabelten Daten, zum Beispiel mit großen Mengen von Texten oder Zahlenreihen, trainiert werden. Die Modelle versuchen dann, selbständig Muster, Zusammenhänge oder Strukturen in den Daten zu erkennen und daraus Ergebnisse abzuleiten.

Neben den eigentlichen Trainingsdaten bestehen Datensätze zum Trainieren von KI-Modellen häufig noch aus Validierungs- und Testdaten. Die Validierungsdaten werden während des Trainings zur Optimierung oder Anpassung verwendet, um die Leistung der Modelle mithilfe von Daten zu bewerten, die nicht für das eigentliche Training genutzt wurden. Dadurch lassen sich beispielsweise Effekte wie Überanpassung erkennen und Gegenmaßnahmen ergreifen. Die Testdaten kommen zum Einsatz, um nach dem abgeschlossenen Training eines Modells dessen tatsächliche Leistung zu bewerten.

Welchen Einfluss haben Trainingsdaten auf die Genauigkeit, Zuverlässigkeit und Leistung eines KI-Modells, und welche Anforderungen bestehen an sie?

Das Training eines KI-Modells und die Qualität, Vielfalt und Quantität der dafür verwendeten Daten haben entscheidenden Einfluss auf die spätere Genauigkeit, Zuverlässigkeit und Leistung des KI-Modells. Während des Trainings lernt das Modell, wie es zukünftig aus neuen, unbekannten Daten die richtigen Vorhersagen oder Ergebnisse ableiten soll. Deshalb sollten die Trainingsdaten so gestaltet sein, dass sie die Komplexität und Vielfalt, die zur späteren Lösung einer Aufgabe notwendig sind, in hinreichender Form abbilden.

Typische Anforderungen an Trainingsdaten sind:

  • Die Daten sollen für die jeweilige Aufgabenstellung relevant sein.
  • Die Daten sollen umfassend und repräsentativ sein und ein breites Spektrum an Szenarien und Variationen aller Anwendungsfälle abdecken.
  • Im Fall von annotierten Testdaten sollen die Annotationen korrekt und konsistent sein.
  • Die Daten sollen möglichst wenig Bias (Verzerrungen) enthalten und ausgewogen sein.
  • Die Daten sollen unter Beachtung ethischer Grundsätze und Datenschutzbestimmungen zusammengestellt worden sein.

(ID:50632593)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Data-Storage und -Management

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung