Wenn Unternehmen KI-Tools für Unternehmen einführen, stellen sie oft fest, dass ihr Datensee zwar tief, aber unübersichtlich ist. Selbst wenn sie mit sorgfältig kuratierten Daten beginnen, kann ein schlechtes Datenänderungsmanagement schwerwiegende Folgen nach sich ziehen.
Chad Sanderson ist der CEO und Gründer von Gable.ai, wo er Unternehmen bei der Verbesserung der Datenqualität im großen Maßstab unterstützt.
Ich konnte mit ihm über die Bedeutung der Datenqualität sprechen und darüber, wie Datenverträge sicherstellen können, dass Anwendungen, die auf großen Datenmengen aufbauen, ihre Integrität behalten.
F: Sie kommen aus dem Bereich der Journalistik. Möchten Sie uns erzählen, wie Sie in der Datenbranche gelandet sind und wie Sie sich für Datenwissenschaft und Datenqualität begeistern?
Chad Sanderson: "Datenwissenschaft war etwas, das ich als Journalist zu praktizieren begann, weil ich meine eigene Website betrieb und Webanalysen einrichten musste. Ich lernte GA4, begann A-B-Tests durchzuführen, ganz grundlegende Datenwissenschaft. Das hat mir dann so viel Spaß gemacht, dass ich es zu meinem Vollzeitjob gemacht habe, mir selbst Statistik beigebracht habe und schließlich für Oracle als Analytiker und Datenwissenschaftler.
Und dann habe ich angefangen, Teams im Datenbereich zu leiten. Zuerst waren es eher Experimentier- und Analyseteams. Dann begann ich, mich mehr mit Datentechnik zu befassen und schließlich mit der Infrastruktur, den Dateninfrastrukturplattformen.
Also arbeitete ich an der Microsoft-Plattform für künstliche Intelligenz. Und dann leitete ich auch die KI- und Datenplattform bei einem Frachtunternehmen namens Convoy, das sich in der Spätphase befindet.
F: Sie haben kürzlich auf dem MDS Fest über Datenverträge gesprochen und darüber, wie Unternehmen dadurch eine föderierte Datenverwaltung erhalten können. Könnten Sie kurz erklären, worum es dabei geht?
Chad Sanderson: "Datenverträge sind eine Art Implementierungsmechanismus für föderierte Datenverwaltung und föderiertes Datenmanagement.
Im Grunde genommen gab es in der alten Welt, also in der Legacy-Welt, vor 20 Jahren Datenarchitekten, die ein gesamtes Datenökosystem in einem Unternehmen aufgebaut haben, angefangen bei den Transaktionsdatenbanken, den ETL-Systemen und all den verschiedenen Mechanismen, mit denen man Daten transformiert und im Grunde genommen für Analysen, Data Science und KI vorbereitet hat.
Und all diese Daten wurden den Wissenschaftlern von einem zentralen Team zur Verfügung gestellt. Man kann sich das so vorstellen, wie wenn ein Bibliothekar eine Bibliothek betreibt.
Sie sorgen dafür, welche Bücher reinkommen, welche Bücher rausgehen, wie die Bücher organisiert sind, und das macht es den Forschern sehr leicht, die Informationen zu finden, die sie für ihre Projekte brauchen.
Aber 15 Jahre später, 20 Jahre später, sind wir zur Cloud und zu den Software-Ingenieuren übergegangen, und Software hat die Welt gefressen, wie Mark Andreessen sagt, und jedes Unternehmen hat beschlossen, ein Software-Unternehmen zu werden. Die Art und Weise, wie Unternehmen Softwareunternehmen betrieben, bestand darin, dass sie die Ingenieurteams so schnell wie möglich arbeiten ließen, um Anwendungen auf eine super iterative, experimentelle Weise zu entwickeln.
Das bedeutete, dass alle Daten, die diese Anwendungen generierten, nicht mehr der Planung durch den Datenarchitekten unterworfen waren, der die Struktur und die Art und Weise, wie sie entworfen und organisiert wurde, festlegte. Man nahm einfach all diese Informationen und warf sie an einem Ort zusammen, der Data Lake genannt wurde. Und der Datensee war sehr unübersichtlich.
Die Verantwortung, aus all diesen sumpfigen Informationen etwas Sinnvolles zu machen, lag bei den Dateningenieuren. Man lebt also ein bisschen in beiden Welten, mit einer dezentralisierten, völlig föderierten Anwendungsschicht und einer sehr, sehr zentralisierten Datenschicht, und die Datentechnik-Teams tun ihr Bestes, um daraus etwas Sinnvolles zu machen.
Der Datenvertrag ist ein Mechanismus, mit dem die nachgelagerten Datenteams und Data-Engineering-Teams sagen können: Hey, wir fangen an, diese Daten auf eine bestimmte Weise zu nutzen.
Wir haben einige Erwartungen an sie. Das bedeutet, dass die Ingenieure, die die Daten erstellen, die Verantwortung dafür übernehmen, so wie ein Datenarchitekt ein Jahr zuvor die Verantwortung für das gesamte System übernehmen würde. Und das ist es, was die Skalierung der Governance und der Qualität tatsächlich ermöglicht.
Wenn das nicht der Fall ist, entsteht eine sehr chaotische Situation.
F: Und es ist eine Art Garbage-in-Garbage-out-Situation. Wenn Sie etwas sehr Kleines in Ihren Daten ändern, kann das tiefgreifende Auswirkungen auf die nachgelagerten Bereiche haben.
Chad Sanderson: "Ja, das ist genau richtig. Und es gibt viele Unternehmen, deren KI-Modelle schon durch relativ kleine Änderungen, die die Anwendungsentwickler nicht für eine große Sache halten, wirklich unglückliche Auswirkungen hatten.
Nehmen wir zum Beispiel an, Sie erfassen den Geburtstag einer Person, der Sie automatisch eine nette Geburtstagsnachricht schicken möchten.
Möglicherweise speichern Sie die Geburtstagsdaten in drei Spalten mit Geburtstagsmonat, Geburtstagsjahr und Geburtstagsdatum. Sie nehmen all diese Informationen und können dann einige ausgefallene Dinge damit machen. Aber wenn der Ingenieur sagt: "Weißt du was, das in drei verschiedene Spalten aufzuteilen ist dumm.
Ich möchte nur eine Spalte für das Datum haben. Das ist in Ordnung. Und sie werden das tun, weil es ihre Anwendung einfacher zu benutzen macht.
Aber jeder, der diese Daten verwendet, erwartet drei Spalten. Wenn sie also morgen nur eine bekommen und zwei, die sie benutzt haben, weg sind, wird das alles, was sie aufgebaut haben, zunichte machen.
So etwas passiert in den Unternehmen ständig".
F: Sie sind der CEO eines Unternehmens namens Gable. Was sind einige der zentralen Herausforderungen, mit denen Sie Unternehmen konfrontiert sehen und die Sie zu lösen hoffen? Wie geht Ihre Plattform einige dieser Probleme an?
Chad Sanderson: "Die größte Herausforderung, die wir von den meisten Unternehmen gehört haben, die in den KI- und ML-Bereich einsteigen, zumindest auf der Datenseite, sind eigentlich zwei Dinge. Die erste ist das Eigentum. Wenn ich also jemand bin, der KI-Systeme und Modelle entwickelt, brauche ich jemanden, der die Verantwortung für die von mir verwendeten Daten übernimmt und dafür sorgt, dass diese Daten wie eine API behandelt werden.
Wenn Sie ein Softwareentwickler sind und sich auf die Anwendung eines anderen verlassen, tun Sie dies über eine Schnittstelle. Diese Schnittstelle ist gut dokumentiert. Sie hat sehr klare Erwartungen.
Es gibt SLAs. Es gibt eine bestimmte Betriebszeit, von der man erwartet, dass sie funktioniert. Wenn es Fehler gibt, dann geht jemand hin und behebt sie.
Und das ist der Grund, warum man mit gutem Gewissen eine Abhängigkeit von Anwendungen eingehen kann, die nicht nur das sind, was man selbst entwickelt hat. Bei Daten ist es genau das, was wir tun, wenn wir Daten aus dem Datensatz eines anderen extrahieren, z. B. aus einer Datenbank. Und dann bauen wir darauf ein Modell auf.
Wir machen uns von einer Schnittstelle abhängig, aber heute gibt es nicht viel Eigentum an dieser Schnittstelle. Es gibt kein wirkliches SLA. Es gibt nicht viel Dokumentation.
Sie kann sich jederzeit ändern. Und wenn APIs so funktionieren würden, würde unser gesamtes Internet-Ökosystem im Chaos versinken. Nichts würde mehr funktionieren.
Viele Unternehmen und Datenteams sehnen sich also gerade jetzt danach, sich darauf verlassen zu können, dass die Daten, die sie verwenden, auch morgen noch dieselben sind wie gestern. Das ist die eine Seite. Und dann ist die Datenqualität eines der wichtigsten Ergebnisse davon.
Wir wollen sicherstellen, dass die Daten unseren Erwartungen entsprechen. Nehmen wir an, ich arbeite mit einigen Versanddaten und benötige Informationen über die Versandentfernung für Fracht. Ich würde immer erwarten, dass das Merkmal "Versandentfernung" das bedeutet, was ich erwarte, und nicht plötzlich etwas anderes, richtig?
Wenn ich sage, dass es sich um eine Transportentfernung in Meilen handelt, dann möchte ich nicht, dass es morgen plötzlich Kilometer heißt, weil die KI nicht weiß, dass es sich von Meilen in Kilometer geändert hat. Sie hat nicht den Kontext, um das zu verstehen.
Bei Gable geht es darum, sicherzustellen, dass diese klaren Erwartungen und SLAs vorhanden sind, dass alle Daten, die die Teams für die KI nutzen, eindeutig in ihrem Besitz sind, und dass die gesamte Organisation versteht, wie die verschiedenen Personen im Unternehmen die Daten nutzen und wo diese Liebe und Sorgfalt tatsächlich erforderlich ist.
F: Der Schwerpunkt liegt auf der Sicherstellung der Datenqualität, um KI zu ermöglichen, aber ist KI in der Lage, dies besser zu tun?
Chad Sanderson: "KI ist, ehrlich gesagt, fantastisch. Ich glaube, wir befinden uns mitten in einem Hype-Zyklus, definitiv, 100%.
Die Leute werden also einige Behauptungen darüber aufstellen, was KI alles kann, die haarsträubend sind. Aber ich denke, wenn man realistisch ist und sich nur darauf konzentriert, was KI im Moment tun kann, gibt es bereits eine Menge Mehrwert, der insbesondere für unser Unternehmen entsteht. Der primäre Mehrwert von Gable, also das, was wir anders machen als alle anderen, ist die Code-Interpretation.
Gable ist kein Datenwerkzeug. Wir sind ein Software-Engineering-Tool, das für die Komplexität von Daten ausgelegt ist. Und wir können Code interpretieren, der letztendlich Daten erzeugt, um herauszufinden, was dieser Code tut.
Wenn ich also, sagen wir mal, ein Ereignis habe, das von einem Front-End-System ausgegeben wird, und jedes Mal, wenn jemand auf eine Schaltfläche klickt, gibt es einen Code, der besagt: "Hey, diese Schaltfläche wurde angeklickt. Ich möchte ein Ereignis namens "Schaltfläche angeklickt" an eine Datenbank senden. Und von dieser Datenbank werden wir es dann an unseren Data Lake senden.
Und dann schicken wir sie von unserem Datensee zum Modelltraining für ein KI-System. Und wenn ein Software-Ingenieur beschließt, die Struktur des Ereignisses "Schaltfläche angeklickt" im Code zu ändern, was sich auf alle nachgelagerten Bereiche auswirken würde, kann Gable erkennen, dass dies während des DevOps-Prozesses geschehen ist.
Wenn also ein Softwareentwickler auf GitHub Änderungen an seinem Code vornimmt, können Sie sagen: "Oh, Moment mal, bevor Sie diese Änderung vornehmen, haben wir festgestellt, dass hier etwas schief gelaufen ist.
Einen Großteil der Code-Interpretation haben wir mithilfe von maschinellem Lernen und statischen Analysemethoden entwickelt.
Aber KI, die sehr gut darin ist, Konventionen zu erkennen, wie z. B. gängige Codierungsmuster, leistet wirklich großartige Arbeit, wenn es darum geht, Kontext zu liefern, warum Menschen Codeänderungen vornehmen oder was ihre Absicht ist. Es gibt also eine Menge cooler Möglichkeiten, wie wir KI speziell für unser Produkt einsetzen können."
F: Wenn Unternehmen die KI nutzen wollen, brauchen sie Daten. Wo sehen Sie die größten Chancen für Unternehmen, ihre Daten zu verwalten und zu entwickeln? Wie können sie daraus Kapital schlagen und sich darauf vorbereiten?
Chad Sanderson: "Ich denke, dass jedes Unternehmen, das KI nutzen will, eine Datenstrategie entwickeln muss. Und ich glaube, dass es zwei Datenstrategien geben wird, die für jedes Unternehmen von großer Bedeutung sind.
Die erste ist, dass im Moment die großen iterativen Modelle, die LLMs, die öffentlich zugänglichen LLMs, die wir alle kennen, wie OpenAI, Wolke, Gemini, AnthropicSie alle verwenden in erster Linie öffentlich zugängliche Daten, Daten, die man aus dem Internet beziehen kann.
Und das ist für ein breites, allgemeines Modell durchaus von Nutzen. Eine der Herausforderungen bei diesen LLMs ist jedoch das so genannte Kontextfenster, d. h. je mehr Informationen sie zu verarbeiten haben, desto schlechter ist ihre Arbeit. Je enger man ihnen also eine Aufgabe mit einer begrenzten Menge an Kontext stellen kann, desto effektiver sind sie.
Es ist ein bisschen wie bei einer Person, oder? Wenn ich Ihnen die Informationen eines ganzen Buches gebe und Sie dann nach einem ganz bestimmten Absatz auf Seite 73 frage, wird Ihre Fähigkeit, sich daran zu erinnern, wahrscheinlich gering sein. Wenn ich Ihnen aber nur ein Kapitel zum Lesen gebe, werden Sie das wahrscheinlich viel besser hinbekommen.
Das ist also ein Punkt, an dem ich denke, dass viele dieser allgemeinen Modelle für große Unternehmen nicht mehr so nützlich sein werden. Wir werden immer kleinere Modelle sehen, die mehr auf den Kontext ausgerichtet sind. Sie basieren also auf kleineren Kontexten.
Und die Art und Weise, wie man einen fein abgestimmten, qualitativ hochwertigen Kontext erhält, besteht darin, dass man hochgradig abgestimmte, großartige Daten über diese spezifische Sache erhält, was auch immer das ist, was man betrachtet. Und ich glaube, dass die Daten für die meisten Unternehmen zum Wettbewerbsvorteil werden.
Ich denke also, dass dies eine große Investition sein wird, die viele Unternehmen tätigen müssen. Wir müssen so viele hochwertige Daten wie möglich sammeln, damit wir sie in diese Modelle einspeisen können und nicht die breiteren Modelle mit den größeren Kontextfenstern verwenden.
F: Wie werden sich Dinge wie GDPR und CCPA in Kalifornien darauf auswirken, wie Menschen oder Unternehmen mit Datenqualität und -sicherheit umgehen?
Chad Sanderson: "Ich denke, GDPR und CCPA sind wirklich gute Beispiele dafür, warum sich viele Unternehmen Sorgen darüber machen, wie die Regulierung dieser generativen Modelle in Zukunft aussehen wird.
Selbst wenn die Vereinigten Staaten sagen: "Hey, das ist in Ordnung", wenn die EU entscheidet, dass es nicht in Ordnung ist, müssen Sie diese Standards letztendlich für alle anwenden, oder? Das große Problem bei der DSGVO war, dass man nicht wirklich sagen kann, ob ein Kunde, der auf Ihre Website zugreift, aus Europa oder den Vereinigten Staaten kommt.
Und natürlich können Sie Geolokalisierung und solche Dinge tun. Aber Sie könnten einen Europäer in den Vereinigten Staaten haben, der Ihre Anwendung nutzt, und die DSGVO macht keinen Unterschied zwischen dieser Person und jemandem, der in Europa lebt. Sie müssen die Möglichkeit haben, sie gleich zu behandeln.
Und das bedeutet, dass man alle Kunden gleich behandeln muss, weil man nicht weiß, wer die Person auf der anderen Seite des Telefons ist. Und das erfordert eine Menge an Governance, eine Menge sehr interessanter technologischer Innovationen, eine Menge Veränderungen im Umgang mit Marketing und dergleichen. Und ich denke, dass wir wahrscheinlich etwas Ähnliches bei der KI sehen werden, wenn die Regulierung wirklich beginnt, herauszukommen.
Europa beginnt bereits damit, darauf zu drängen. Und deshalb ist es für viele Unternehmen einfach sicherer, ihre eigenen Sachen zu machen, oder? Ich habe meinen eigenen ummauerten Garten.
Ich verwende nur die Daten, die ich aus unseren eigenen Anwendungen erhebe. Und diese Daten gehen nicht weg. Wir folgen den Kunden nicht durch das Internet.
Wir schauen uns nur an, wie sie unsere Dienste tatsächlich nutzen. Ich denke, das wird eine ziemlich große Rolle spielen. Die andere Sache, die meiner Meinung nach groß werden wird, sind Datenanbieter.
Datenanbieter gibt es also schon sehr lange, oder Daten als Dienstleistung, bei der man sagt: Ich liefere Ihnen aktuelle Wetterinformationen, und Sie bezahlen mich für den Zugang zu diesen Informationen. Und ich bin derjenige, der bereits alle Hürden genommen hat, um die Daten sicher, zugänglich und vertrauenswürdig zu machen. Und ich sorge dafür, dass die Datenqualität hoch ist.
Das ist bereits der Fall. Aber ich denke, dass dies in den nächsten fünf bis zehn Jahren explosionsartig zunehmen wird, wenn Sie Daten benötigen, die Sie nicht über Ihre eigenen internen Anwendungen sammeln können. Und ich denke, in dieser Welt wird das Konzept dieser Verträge noch wichtiger werden.
Und das wird an einen wortwörtlichen Vertrag geknüpft sein. Wenn ich dafür bezahle, dass die Daten auf eine bestimmte Art und Weise aussehen, dann habe ich bestimmte Erwartungen daran.
Ich erwarte nicht, dass sich diese Daten von dem Zeitpunkt, an dem Sie sie mir das letzte Mal gegeben haben, bis heute plötzlich ändern, denn jetzt können sie sich wirklich auf mein maschinelles Lernmodell auswirken, was wiederum Auswirkungen auf mein Endergebnis hat.
Wir interagieren täglich mit KI-Tools, aber wir machen uns kaum Gedanken über die Daten, auf denen diese Modelle basieren. Die Kuratierung und Verwaltung von Daten wird entscheidend sein, insbesondere für Unternehmen, die KI intern einsetzen.
Datenpflege, Qualitätsmanagement und -kontrolle werden in dem Maße an Bedeutung gewinnen, in dem Unternehmen Produkte entwickeln, die von konsistent guten Daten abhängen.
Wenn Sie mehr über Datenverträge und die optimale Nutzung der Daten Ihres Unternehmens erfahren möchten, wenden Sie sich bitte an Chad Sanderson oder erfahren Sie mehr unter Gable.ai.