KI-Lösungen können nur so wertvoll, einzigartig und nützlich sein, wie Menge, Qualität und Vielfalt der verfügbaren Trainingsdaten. Dies bedeutet für Unternehmen, dass sie jetzt Methoden benötigen, um ihre Daten in einem Workflow zu speichern, der eine Analyse, Katalogisierung und Kennzeichnung all ihrer Daten ermöglicht. Dies erfordert eine End-to-End-Infrastruktur für unstrukturierte Daten, die sich an neue Herausforderungen anpassen lässt.
Von Skip Levens, Direktor, Media and Entertainment bei Quantum.
KI-Modelle, die dabei helfen, Aufgaben automatisch zu erledigen, basieren meist auf bereits vorhandenen allgemeinen KI-Modellen. Diese allgemeinen KI-Modelle werden dann so trainiert, dass sie sich auf eine bestimmte Aufgabe konzentrieren. Ein medizinisches Unternehmen kann beispielsweise ein Modell mithilfe einer großen Sammlung von Millionen MRT-Bildern trainieren, damit das Modell lernt, Krebszellen zu erkennen.
Oder ein Fernsehsender kann ein Modell mit Millionen von Videos zu Fußballspielen trainieren, um darin Szenen mit Toren, speziellen Spielern oder Elfmetern zu erkennen. Ein solches trainiertes Modell kann es möglich machen, sehr schnell einen bestimmten Schuss in Millionen Minuten an Spielen zu finden. In der Praxis beruht der Erfolg beim Training eines KI-Models jedoch nicht auf dem Modell selbst, sondern eher auf der Qualität der Daten, mit denen das Modell trainiert wurde.
Menge, Qualität und Vielfalt von Trainingsdaten bestimmt die Qualität eines KI-Modells
Ob ein allgemeines KI-Modell erfolgreich für eine bestimmte Aufgabe trainiert werden kann, hängt in hohem Maße von der Menge, der Qualität und der Vielfalt der zugrunde liegenden Daten ab. Je vielfältiger die Daten sind, desto besser ist das Modell in der Lage, das zu erkennen, was es erkennen soll. Eine KI-Lösung, die beispielsweise Giraffen erkennen soll, wird erfolgreicher sein, wenn die zugrundeliegenden Daten nicht einfach auf vielen ähnlichen Bildern von Giraffen basieren, sondern auf Bildern von verschiedenen Giraffen aus verschiedenen Blickwinkeln vor unterschiedlichen Hintergründen.
Je mehr Daten also zur Verfügung stehen – in Menge, Qualität und Vielfalt -, desto besser wird das Modell trainiert sein. Noch besser ist es, wenn diese Datenvielfalt aus unternehmenseigenen Daten stammt. Denn dann sind sie einzigartig an die Bedürfnisse des Unternehmens angepasst und bieten einen entscheidenden Vorteil gegenüber Konkurrenten, die sich nicht die Mühe gemacht haben, eigene Daten zu sammeln und zu verwalten.
Wer eigene Daten für KI nutzt, ist im Vorteil
Unternehmen, die erkennen, dass KI-Modelle auf realen und relevanten Geschäftsdaten aufbauen müssen, idealerweise ihren eigenen, werden ihren Konkurrenten einen Schritt voraus sein. Solche Daten treiben einen neuen Wettlauf für Innovationen voran. Will sich ein Unternehmen von seinen Mitbewerbern abheben, muss es seine eigenen, einzigartigen Daten nutzen – und nicht nur die, die in allgemeinen Modellen verfügbar sind. Diese Erkenntnis hat zur Folge, dass die meisten Unternehmen heute so viele Daten wie möglich aufbewahren. Damit wird eine durchgängige Verwaltung unstrukturierter Daten erforderlich – ein von Natur aus schwieriger Prozess.
Effizienz und Organisation von Daten sind Vorteile beim Training von KI-Modellen
Jüngste Fortschritte im Bereich Datenspeicherung und KI-Technologie vereinfachen die Komplexität der Verwaltung unstrukturierter Daten. Diese Fortschritte helfen Unternehmen, Daten nicht nur zu verwalten, sondern sie auch einfacher als Wettbewerbsvorteil zu nutzen. Neue KI-Funktionen in der Datenspeicherung können Unternehmen dabei helfen, die Verwaltung und Veredelung von Daten zu vereinfachen.
So können sie aus ihren Daten einfacher umsetzbare Erkenntnisse erzeugen. Moderne KI-fähige Speicherinfrastrukturen sind etwa in der Lage, Daten zu kennzeichnen, zu katalogisieren und zu sortieren, sodass sie leicht durchsuchbar und für KI und weitere Analysen verwendbar sind. Entscheidend ist hierbei auch, dass die Infrastruktur ein durchgängiges Datenmanagement bietet, vom Hochleistungs-Ingest für KI-Anwendungen bis hin zur Langzeitarchivierung. Das erlaubt den Aufbau umfangreicher Datenspeicher, die bestehende Modelle verbessern und neue KI-Initiativen bei Bedarf schnell umsetzen können.
Bibliotheken für Objekterkennung schaffen einen KI-freundlichen Workflow für die Produktion
In einer KI-freundlichen Infrastruktur befinden sich sowohl die Daten als auch die KI-Modelle auf derselben Plattform. Dies macht es einfach, die Daten zu nutzen und sie für die Verwendung mit einer bestehenden Objekterkennungsbibliothek zu erweitern. Ein Unternehmen, das bereits über ein trainiertes System verfügt, welches eine Allzweckbibliothek erweitert, hat einen Zeit- und Kompetenzvorteil gegenüber anderen Unternehmen.
Ein solcher KI-freundlicher Workflow für die Produktion von Inhalten bietet einen enormen Vorteil, den Konkurrenten erst durch mühsames, von Menschenhand gesteuertes Tagging von Inhalten wettmachen müssen. Ist ein solcher Workflow vorhanden, ist es einfach, diesen Datensatz zu verwenden, um das bestehende Modell zur Identifizierung von anderen Objekten oder Aktionen zu erweitern. So kann das gleiche Modell, welches Bilder mit „Giraffe“ verschlagwortet hat, als Nächstes für die Suche nach „Elefant“ oder „Nashorn“ verwendet werden.
Fazit: Nicht jede KI-Lösung ist gleich intelligent
Zum einen sind aktuelle KI-Lösungen „künstlich“, da sie auf einem künstlich erschaffenen allgemeinen Modell basieren. Ob sie zum anderen auch „intelligent“ sind, hängt vornehmlich von den Daten ab, mit denen das Modell trainiert wurde. In der Praxis beruht der tatsächliche Nutzen von KI-Lösungen auch darauf, wie schnell ein Modell bei Bedarf mit neuen Datensätzen trainiert werden kann. Nur so werden einem Modell neue „Funktionen“ hinzugefügt.
Um diesen Vorteil zu erhalten, müssen Unternehmen Best Practices einführen, die ihren Teams helfen, große Mengen an wertvollen unstrukturierten Daten zu speichern, zu verwalten, zu analysieren und zu nutzen, wann und wo immer dies erforderlich ist. Eine solide Grundlage einer durchgängigen, KI-fähigen Infrastruktur, vom Hochleistungs-Ingest bis zur Langzeitarchivierung, kann Unternehmen dabei helfen, das Potenzial ihrer Daten zu maximieren und Innovation und Effizienz auf Jahre hinaus zu verbessern.