Databricks stellt die Weiterentwicklung der Databricks Lakehouse Plattform vor. Zu den neuen Funktionen gehören erweiterte Data-Warehousing- und Data-Governance-Funktionen, Innovationen für die gemeinsame Nutzung von Daten, darunter ein Marktplatz für Analysen und Daten-Cleanrooms, automatische Kostenoptimierung für ETL-Operationen und Verbesserungen von maschinellem Lernen (ML).

Unternehmen wie Amgen, AT&T, Northwestern Mutual und Walgreens entscheiden sich für das Lakehouse, weil es die Möglichkeit bietet, Analysen sowohl für strukturierte als auch für unstrukturierte Daten durchzuführen. Databricks stellt neue Data-Warehousing-Funktionen in seiner Plattform vor, um die Analyse-Workloads weiter zu verbessern:

  • Databricks SQL Serverless, das in der Vorschau auf AWS verfügbar ist, bietet sofortige, sichere und vollständig verwaltete elastische Rechenleistung für verbesserte Leistung zu geringeren Kosten.

  • Photon, die leistungsfähige Abfrage-Engine für Lakehouse-Systeme, wird in den kommenden Wochen allgemein auf Databricks Workspaces verfügbar sein und damit die Reichweite von Photon auf der Plattform weiter ausbauen.

    In den zwei Jahren seit der Ankündigung von Photon wurden Exabytes an Daten verarbeitet, Milliarden von Abfragen ausgeführt und ein Benchmark-Preis/Leistungsverhältnis erzielt, das bis zu 12-mal besser ist als das traditioneller Cloud Data Warehouses.

  • Open-Source-Konnektoren für Go, Node.js und Python machen es jetzt noch einfacher, von operativen Anwendungen aus auf das Lakehouse zuzugreifen.

  • Databricks SQL CLI ermöglicht es Entwicklern und Analysten jetzt, Abfragen direkt von ihren lokalen Computern aus auszuführen.

  • Databricks SQL bietet jetzt Query Federation und damit die Möglichkeit, Remote-Datenquellen wie PostgreSQL, MySQL, AWS Redshift und andere abzufragen, ohne dass die Daten zunächst aus den Quellsystemen extrahiert und geladen werden müssen.

Data Governance wird mit erweiterten Funktionen für Unity Catalog als höchste Priorität hervorgehoben
Unity Catalog ist jetzt allgemein auf AWS und Microsoft Azure verfügbar und bietet eine zentralisierte Governance-Lösung für alle Daten und KI-Assets, mit integrierter Suche und Erkennung, automatisierter Datenabfolge für alle Workloads sowie Leistung und Skalierbarkeit für ein Lakehouse in jeder Cloud.

Darüber hinaus hat Databricks Anfang dieses Monats Data Lineage für Unity Catalog eingeführt, was die Data-Governance-Funktionen im Lakehouse erheblich erweitert und Unternehmen einen vollständigen Überblick über den gesamten Lifecycle von Daten ermöglicht.

Mit Data Lineage erhalten Kunden einen Überblick darüber, woher die Daten in ihrem Lakehouse stammen, wer sie wann erstellt hat, wie sie im Laufe der Zeit verändert wurden, wie sie in Data Warehousing- und Data Science-Workloads verwendet werden und vieles mehr.

Verbesserter Datenaustausch durch Databricks Marketplace und Data Cleanrooms
Als erster Marktplatz für Daten und künstliche Intelligenz bietet Databricks Marketplace einen offenen Marktplatz für die Bündelung und den Vertrieb von Daten und Analysewerten. Databricks Marketplace ermöglicht es Datenanbietern, eine Vielzahl von Assets wie Datentabellen, Dateien, Machine Learning-Modelle, Notebooks und Analyse-Dashboards sicher zu verpacken und zu vermarkten.

Datenkonsumenten können auf einfache Weise neue Daten und KI-Assets entdecken, ihre Analysen beschleunigen und schneller Erkenntnisse und Werte aus Daten gewinnen. Anstatt beispielsweise Zugang zu einem Datensatz zu erhalten und ihre eigene Zeit in die Entwicklung und Pflege von Dashboards zu investieren, um darüber zu berichten, können sie sich einfach für bereits vorhandene Dashboards anmelden, die bereits die erforderlichen Analysen bieten.

Databricks Marketplace wird von Delta Sharing unterstützt und ermöglicht es Datenanbietern, ihre Daten gemeinsam zu nutzen, ohne dass sie die Daten aus ihrem Cloud-Speicher verschieben oder replizieren müssen. Dies ermöglicht es Anbietern, Daten aus einer einzigen Quelle an andere Clouds, Tools und Plattformen zu liefern.

Databricks unterstützt seine Kunden auch bei der gemeinsamen Nutzung von Daten und der Zusammenarbeit über Unternehmensgrenzen hinweg. Data Cleanrooms bieten eine Möglichkeit, Daten in einer sicheren, gehosteten Umgebung und ohne Datenreplikation über Unternehmensgrenzen hinweg auszutauschen und zu verknüpfen, wobei der Datenschutz im Vordergrund steht.

In der Medien- und Werbebranche möchten beispielsweise zwei Unternehmen die Überschneidung von Zielgruppen und die Reichweite von Kampagnen verstehen. Bestehende Cleanrooms-Lösungen haben ihre Grenzen, da sie in der Regel auf SQL-Tools beschränkt sind und das Risiko der Datenduplizierung über mehrere Plattformen hinweg besteht.

Mit Databricks Cleanrooms können Unternehmen problemlos mit Kunden und Partnern in jeder beliebigen Cloud zusammenarbeiten und ihnen die Flexibilität bieten, komplexe Berechnungen und Workloads sowohl mit SQL als auch mit Data-Science-basierten Tools - einschließlich Python, R und Scala - auszuführen, und zwar mit konsistenten Datenschutzkontrollen.

MLflow 2.0 streamlined und beschleunigt Production Machine Learning im großen Stil
Databricks ist mit der Einführung von MLflow 2.0 weiterhin führend in der MLOps-Innovation. Um eine Pipeline für maschinelles Lernen in Produktion zu bringen, muss nicht nur Code geschrieben, sondern auch die Infrastruktur eingerichtet werden. Dies kann für neue Benutzer schwierig und für alle Beteiligten mühsam sein. MLflow Pipelines, ermöglicht durch MLflow 2.0, kümmert sich nun um die operativen Details für die Benutzer.

Anstatt die Orchestrierung von Notebooks einzurichten, können Benutzer einfach die Elemente der Pipeline in einer Konfigurationsdatei definieren und MLflow Pipelines verwaltet die Ausführung automatisch. Über MLflow hinaus hat Databricks auch Serverless Model Endpoints hinzugefügt, um das Hosting von Produktionsmodellen direkt zu unterstützen, sowie integrierte Model Monitoring Dashboards, um Teams bei der Analyse der realen Modellleistung zu unterstützen.

Delta Live Tables enthält den branchenweit ersten Performance-Optimierer für Data Engineering Pipelines
Delta Live Tables (DLT) ist das erste ETL-Framework, das einen einfachen, deklarativen Ansatz für den Aufbau zuverlässiger Datenpipelines verwendet. Seit der Markteinführung Anfang des Jahres hat Databricks DLT um neue Funktionen erweitert, darunter die Einführung einer neuen Leistungsoptimierungsschicht, die die Ausführung von ETL beschleunigen und die Kosten senken soll.

Darüber hinaus wurde das neue Enhanced Autoscaling speziell für die intelligente Skalierung von Ressourcen mit den Schwankungen von Streaming-Workloads entwickelt. Change Data Capture (CDC) für Slowly Changing Dimensions - Type 2 verfolgt jede Änderung in Quelldaten sowohl für Compliance- als auch für Machine Learning-Experimente.

Weitere Beiträge....