Mit den neuen Lakehouse AI-Innovationen können Kunden einfach und effizient generative KI-Anwendungen, einschließlich Large Language Models (LLMs), direkt innerhalb der Databricks Lakehouse Platform entwickeln. Lakehouse AI bietet einen einzigartigen, datenzentrierten Ansatz für KI, mit integrierten Funktionen für den gesamten KI-Lebenszyklus und die zugrunde liegende Überwachung und Steuerung.
Die Nachfrage nach generativer KI treibt die Umwälzungen in allen Branchen voran und macht es für technische Teams dringend erforderlich, generative KI-Modelle und LLMs auf der Grundlage ihrer eigenen Daten zu erstellen, um ihre Angebote zu differenzieren.
Der Erfolg von KI hängt jedoch von den Daten ab, und wenn die Datenplattform von der KI-Plattform getrennt ist, ist es schwierig, saubere, qualitativ hochwertige Daten zu erzwingen und zu pflegen. Darüber hinaus ist der Prozess, ein Modell von der Erprobung in die Produktion zu überführen, und die damit verbundene Abstimmung, Operationalisierung und Überwachung der Modelle, komplex und unzuverlässig.
Mit Lakehouse AI vereint Databricks die Daten- und KI-Plattform, sodass Kunden ihre generativen KI-Lösungen schneller und erfolgreicher entwickeln können - von der Nutzung grundlegender SaaS-Modelle bis hin zum sicheren Training ihrer eigenen benutzerdefinierten Modelle mit ihren Unternehmensdaten.
Durch die Zusammenführung von Daten, KI-Modellen, LLM-Operationen (LLMOps), Monitoring und Governance auf der Databricks Lakehouse Platform können Unternehmen ihre generative KI-Reise beschleunigen.
Eine Datenplattform für die Entwicklung generativer KI-Lösungen
Lakehouse AI vereinheitlicht den KI-Lebenszyklus, von der Datenerfassung und -aufbereitung über die Modellentwicklung und LLMOps bis hin zur Bereitstellung und Überwachung. Zu den neu angekündigten Funktionen gehören:
- Vektorsuche
Databricks Vector Search ermöglicht es Entwicklern, die Genauigkeit ihrer generativen KI-Antworten durch die Suche nach Einbettungen zu verbessern. Sie verwaltet und erstellt automatisch Vektoreinbettungen aus Dateien in Unity Catalog - Databricks' Flaggschiff-Lösung für einheitliche Suche und Governance in den Bereichen Daten, Analytik und KI - und hält sie durch nahtlose Integrationen im Databricks Model Serving automatisch auf dem neuesten Stand. Zusätzlich haben Entwickler die Möglichkeit, Abfragefilter hinzuzufügen, um ihren Nutzern noch bessere Ergebnisse zu bieten.
- Feinabstimmung in AutoML
Databricks AutoML bietet jetzt einen Low-Code-Ansatz für die Feinabstimmung von LLMs. Kunden können LLMs unter Verwendung ihrer eigenen Unternehmensdaten sicher abstimmen und sind Eigentümer des von AutoML erstellten Modells, ohne dass sie Daten an einen Dritten senden müssen. Darüber hinaus kann das Modell dank der MLflow-, Unity Catalog- und Model Serving-Integrationen leicht innerhalb eines Unternehmens geteilt, für die angemessene Verwendung geregelt, die Inferenz in der Produktion bereitgestellt und überwacht werden.
- Kuratierte Open-Source-Modelle, unterstützt durch optimiertes Model Serving für hohe Leistung
Databricks hat eine kuratierte Liste von Open-Source-Modellen veröffentlicht, die im Databricks Marketplace verfügbar sind. Darunter fallen MPT-7B- und Falcon-7B-Befehlsverfolgungs- und Zusammenfassungsmodelle sowie Stable Diffusion für die Bilderzeugung, die den Einstieg in die generative KI für eine Vielzahl von Anwendungsfällen erleichtern. Lakehouse-KI-Funktionen wie Databricks Model Serving wurden für diese Modelle optimiert, um Spitzenleistung und Kostenoptimierung zu gewährleisten.
LLMOps effektiv und zuverlässig verwalten
Mit der Ankündigung von MLflow 2.5, der neuesten Version des beliebten Open-Source-Projekts MLflow der Linux Foundation, hat Databricks auch neue Innovationen im Bereich LLMOps vorgestellt. Dies ist der jüngste Beitrag von Databricks zu einem der wichtigsten Open-Source-Projekte des Unternehmens.
MLflow ist eine Open-Source-Plattform für den Lebenszyklus des maschinellen Lernens, die monatlich fast 11 Millionen Mal heruntergeladen wird. MLflow 2.5 enthält folgende Aktualisierungen:
- MLflow AI Gateway
MLflow AI Gateway ermöglicht es Unternehmen, Anmeldeinformationen für SaaS-Modelle oder Modell-APIs zentral zu verwalten und zugriffskontrollierte Routen für Abfragen bereitzustellen. Organisationen können diese Routen dann verschiedenen Teams zur Verfügung stellen, um sie in ihre Workflows oder Projekte zu integrieren. Entwickler können das Backend-Modell jederzeit problemlos austauschen, um Kosten und Qualität zu verbessern, und zwischen verschiedenen LLM-Anbietern wechseln. MLflow AI Gateway ermöglicht auch das Zwischenspeichern von Vorhersagen, um wiederholte Prompts zu verfolgen, und die Begrenzung der Rate, um die Kosten zu kontrollieren.
- MLflow Prompt Tools
Neue visuelle Tools ohne Code ermöglichen es Nutzern, die Ergebnisse verschiedener Modelle auf der Grundlage einer Reihe von Aufforderungen zu vergleichen, die automatisch in MLflow verfolgt werden. Durch die Integration in Databricks Model Serving können Kunden das entsprechende Modell in der Produktion einsetzen.
Darüber hinaus wurde Databricks Model Serving nach seiner Veröffentlichung Anfang des Jahres für die Inferenz von LLMs mit bis zu 10-fach geringerer Latenzzeit und reduzierten Kosten optimiert. Model Serving wird vollständig von Databricks verwaltet, um ein reibungsloses Infrastrukturmanagement zu ermöglichen, und unterstützt nun GPU-basierte Inferenzen.
Es protokolliert und überwacht automatisch alle Anfragen und Antworten auf Delta-Tabellen und gewährleistet eine durchgängige Nachverfolgung der Abstammung durch Unity Catalog. Schließlich lässt sich Model Serving bei Bedarf schnell auf- und abwärts skalieren, was die Betriebskosten senkt und sicherstellt, dass Kunden nur für die genutzte Rechenleistung zahlen.
Intelligente Überwachung von Daten und KI-Assets
Mit der Einführung von Databricks Lakehouse Monitoring hat Databricks auch seine Daten- und KI-Überwachungsfunktionen erweitert, um alle Daten- und KI-Assets innerhalb des Lakehouse besser überwachen und verwalten zu können. Databricks Lakehouse Monitoring bietet einen durchgängigen Einblick in die Datenpipelines, um die Leistung kontinuierlich zu überwachen, zu optimieren und zu verbessern - ohne zusätzliche Tools und Komplexität.
Durch die Nutzung von Unity Catalog bietet Lakehouse Monitoring Anwendern einen tiefen Einblick in die Herkunft ihrer Daten und KI-Assets, um eine hohe Qualität, Genauigkeit und Zuverlässigkeit zu gewährleisten. Proaktive Erkennung und Berichterstattung erleichtern die Erkennung und Diagnose von Fehlern in Pipelines, die automatische Durchführung von Ursachenanalysen und das schnelle Auffinden empfohlener Lösungen über den gesamten Lebenszyklus der Daten.
„Wir sind an einem Wendepunkt für Unternehmen angelangt: Die Nutzung von KI ist nicht mehr nur ein Wunschtraum, sondern eine Notwendigkeit für Unternehmen, um wettbewerbsfähig zu bleiben”, sagt Ali Ghodsi, Mitbegründer und CEO von Databricks.
„Databricks ist seit mehr als einem Jahrzehnt auf der Mission, Daten und KI zu demokratisieren, und wir setzen unsere Innovationen fort, um das Lakehouse zum besten Ort für die Erstellung, den Besitz und die Sicherung generativer KI-Modelle zu machen.“