Interview: Chad Sanderson, CEO for datakontraktplatformen Gable.ai

9. maj 2024

  • Chad Sanderson, CEO og grundlægger af Gable, hjælper organisationer med at forbedre datakvaliteten i stor skala.
  • Sanderson siger, at datakontrakter kan hjælpe virksomheder med at håndtere dynamiske virksomhedsdata på en sikker måde
  • Ejerskab og styring af data er afgørende for vellykkede AI-dataprodukter

Når virksomheder indfører AI-værktøjer, finder de ofte ud af, at deres datasø måske nok er dyb, men at den er rodet. Selv hvis de starter med omhyggeligt kuraterede data, kan dårlig håndtering af dataændringer føre til alvorlige konsekvenser senere i forløbet.

Chad Sanderson er CEO og grundlægger af Gable.ai, hvor han hjælper organisationer med at forbedre datakvaliteten i stor skala.

Jeg talte med ham om vigtigheden af datakvalitet, og hvordan datakontrakter kan sikre, at applikationer, der er bygget på store mængder data, bevarer deres integritet.

Chad Sanderson. Kilde: Supplied

Q: Du kommer fra en baggrund som journalist. Vil du fortælle os, hvordan du endte med at arbejde med data og brænde for datavidenskab og datakvalitet?

Chad Sanderson: "Datavidenskab var noget, jeg begyndte at praktisere som journalist, fordi jeg havde min egen hjemmeside, og jeg havde brug for at sætte webanalyse op. Jeg lærte alle GA4, jeg begyndte at køre A-B-tests, meget grundlæggende datavidenskab. Og så nød jeg det så meget, at jeg gjorde det til mit fuldtidsjob, lærte mig selv statistik og endte med at arbejde for Oracle som analytiker og data scientist.

Og så begyndte jeg at lede teams inden for dataområdet. Først var det mere eksperimenterende og analytiske teams. Så begyndte jeg at bevæge mig mere ind i datateknik og i sidste ende til infrastruktur, datainfrastrukturplatforme.

Så jeg arbejdede på Microsofts platform for kunstig intelligens. Og så stod jeg også i spidsen for AI- og dataplatformen hos en fragtteknologivirksomhed i den sene fase, der hedder Convoy."

Spørgsmål: Du talte for nylig på MDS Fest om datakontrakter, og hvordan det giver virksomheder mulighed for at have denne fødererede datastyring. Vil du kort forklare, hvad det handler om?

Chad Sanderson: "Datakontrakter er en slags implementeringsmekanisme for fødereret datastyring og fødereret datahåndtering.

I den gamle verden, altså i den ældre verden, on-prem, havde man for 20 år siden dataarkitekter, som opbyggede et helt dataøkosystem i en virksomhed, lige fra transaktionsdatabaserne til ETL-systemerne og alle de forskellige mekanismer, hvormed man transformerer data og dybest set forbereder dem til analyse og datavidenskab og AI.

Og alle disse data blev leveret til forskerne fra et centralt team. Du kan tænke på det på samme måde, som en bibliotekar driver et bibliotek.

De sørger for, hvilke bøger der kommer ind, hvilke der går ud, hvordan bøgerne er organiseret, og det gør det meget nemt for forskere at finde den information, de har brug for til deres projekter.

Men det, der skete 15 år senere, 20 år senere, var, at vi gik over til skyen og softwareingeniører, og software spiste verden, som Mark Andreessen siger, og alle virksomheder besluttede sig for at blive en softwarevirksomhed. Den måde, virksomheder drev softwarevirksomhed på, var ved at lade ingeniørteams bevæge sig så hurtigt, som de overhovedet kunne, for at bygge applikationer på en super iterativ, eksperimentel måde.

Det betød, at alle de data, som disse applikationer genererede, ikke længere var underlagt dataarkitektens planlægning af strukturen, og hvordan den var designet og organiseret. Man tog bare alle disse oplysninger og smed dem ind på et sted, der blev kaldt datasøen. Og datasøen var meget rodet.

Ansvaret for at få noget fornuftigt ud af alle disse sumpede oplysninger faldt på dataingeniøren. Og så lever man lidt i begge verdener, hvor man har det decentrale, totalt fødererede applikationslag og et meget, meget stadig centraliseret datalag og dataingeniørteams, der gør deres bedste for at få noget ud af det.

Datakontrakten er en mekanisme, som downstream-datateams og datatekniske teams kan bruge til at sige, at vi begynder at bruge disse data på en bestemt måde.

Vi har nogle forventninger til det. Og det betyder, at de ingeniører, der skaber dataene, tager ejerskab over dem på samme måde, som en dataarkitekt ville tage ejerskab over hele systemet et år tidligere. Og det er faktisk det, der gør det muligt at skalere governance og kvalitet.

Hvis man ikke har det, får man bare en meget kaotisk situation."

Q: Og det er en slags garbage in garbage out-situation. Hvis du ændrer noget meget lille i dine data, kan det få store konsekvenser nedstrøms.

Chad Sanderson: "Ja, det er helt rigtigt. Og der er mange virksomheder, der har haft virkelig uheldige konsekvenser af deres AI-modeller, bare på grund af relativt små ændringer, som applikationsudviklerne ikke synes er noget særligt.

Lad os for eksempel sige, at du indsamler en persons fødselsdag, fordi du automatisk vil sende dem en meget flot fødselsdagsbesked.

Du gemmer måske fødselsdagsoplysningerne som tre kolonner med fødselsdagsmåned, fødselsår og fødselsdato. Og du tager alle de oplysninger og kan gøre nogle smarte ting med dem. Men hvis ingeniøren siger: "Ved du hvad, det er dumt at dele det op i tre forskellige kolonner".

Jeg vil bare have en kolonne til datoen. Det er helt fint. Og det vil de gøre, fordi det gør deres applikation nemmere at bruge.

Men alle nedstrøms, der bruger disse data, forventer tre kolonner. Så hvis de i morgen kun får én, og de to, de brugte, er væk, vil det ødelægge alt, hvad de havde bygget op.

Det er den slags ting, der sker hele tiden i virksomhederne."

Q: Du er CEO for en virksomhed, der hedder Gable. Hvad er nogle af de centrale udfordringer, som du ser, at virksomheder står over for, og som du håber at kunne løse? Hvordan løser jeres platform nogle af disse problemer?

Chad Sanderson: "Så den største udfordring, som vi har hørt fra de fleste virksomheder, der bevæger sig ind på AI- og ML-området, i hvert fald fra datasiden, er i virkeligheden to ting. Den første er ejerskab. Så ejerskab betyder, at hvis jeg er en, der bygger AI-systemer, bygger jeg modellerne, og jeg har brug for, at nogen tager ejerskab over de data, jeg bruger, og sørger for, at de data bliver behandlet som en API.

Hvis du er softwareingeniør, og du er afhængig af en andens program, gør du det gennem en grænseflade. Den grænseflade er veldokumenteret. Den har meget klare forventninger.

Der er SLA'er. Det har en vis mængde oppetid, som forventes at fungere. Hvis der er fejl, er der faktisk nogen, der retter dem.

Og det er grunden til, at man kan føle sig tryg ved at være afhængig af applikationer, som ikke kun er det, man selv har bygget. Og inden for data er det det, vi gør, når vi udtrækker data fra en andens datasæt, som f.eks. en database. Og så bygger vi en model oven på den.

Vi er afhængige af en grænseflade, men i dag er der ikke meget ejerskab over den grænseflade. Der er ingen rigtig SLA. Der er ikke meget dokumentation.

Det kan ændre sig når som helst. Og hvis det var sådan, API'er fungerede, ville hele vores internetøkosystem være i kaos. Intet ville fungere.

Så det, som mange virksomheder og datateams virkelig higer efter lige nu, er muligheden for at stole på, at de data, de bruger, vil være de samme i morgen, som de var i går. Det er den ene del. Og så er datakvalitet et af de virkelig vigtige resultater af det.

Vi går op i at sikre, at dataene matcher vores forventninger. Så lad os sige, at jeg arbejder med nogle forsendelsesdata, og at jeg bruger nogle oplysninger om forsendelsesafstande for fragt. Jeg vil altid forvente, at funktionen for forsendelsesafstand betyder det, jeg forventer, og ikke pludselig betyder noget andet, ikke sandt?

Hvis jeg siger, at dette er en forsendelsesafstand i miles, så vil jeg ikke have, at det i morgen pludselig betyder kilometer, for AI'en vil ikke vide, at det er ændret fra miles til kilometer. Den har ikke konteksten til at forstå det.

Det, som Gable handler om, er at sikre, at de meget klare forventninger og SLA'er er på plads, at alle de data, som teams bruger til AI, er klart ejet, og at hele organisationen forstår, hvordan forskellige mennesker i virksomheden bruger dataene, og hvor der faktisk er brug for den ømme kærlighed og omsorg."

Q: Der lægges stor vægt på at sikre datakvaliteten for at muliggøre AI, men gør AI dig i stand til at gøre det bedre?

Chad Sanderson: "AI er helt ærligt fantastisk. Jeg tror, at vi er midt i en hype-cyklus, helt sikkert, 100%.

Så folk vil komme med nogle påstande om, hvad AI kan gøre, som er helt ude i hampen. Men jeg tror, at hvis man er realistisk og bare fokuserer på, hvad AI kan gøre lige nu, er der allerede en masse værdi, der tilfører især vores virksomhed. Så Gables primære værditilvækst, det, vi gør anderledes end alle andre, er fortolkning af koder.

Gable er ikke et dataværktøj. Vi er et softwareteknisk værktøj, der er bygget til kompleksiteten i data. Og vi kan fortolke kode, der i sidste ende producerer data, for at finde ud af, hvad den kode gør.

Så hvis jeg har, lad os sige, en hændelse, der udsendes fra et frontend-system, og hver gang nogen klikker på en knap, er der kode, der siger, hey, der er klikket på denne knap. Jeg vil gerne sende en begivenhed, der hedder knap klikket, til en database. Og fra den database sender vi den så til vores datasø.

Og så sender vi det fra vores datasø til modeltræning for et eller andet AI-system. Og det, Gable kan gøre, er at sige, at hvis en softwareingeniør beslutter at ændre, hvordan den begivenhed, der klikkes på i koden, er struktureret, hvilket vil have indflydelse på alle nedstrøms, kan vi genkende, at det er sket i løbet af DevOps-processen.

Så når en softwareingeniør går gennem GitHub og laver ændringer i sin kode, kan du sige: "Vent lidt, før du rent faktisk laver denne ændring, har vi opdaget, at der er gået noget galt her.

En stor del af kodefortolkningen har vi opbygget ved hjælp af mere maskinlæring og metoder baseret på statisk analyse.

Men AI, som er meget dygtig til at genkende konventioner, som f.eks. almindelige kodningsmønstre, gør et rigtig godt stykke arbejde med at give kontekst til, hvorfor folk laver kodeændringer, eller hvad deres hensigt er. Så der er mange fede måder, vi kan anvende AI på i vores produkt."

Spørgsmål: Hvis virksomheder vil udnytte kunstig intelligens, får de brug for data. Hvad ser du som de største muligheder for virksomheder til at styre og udvikle deres data? Hvordan kan de udnytte det og forberede sig på det?

Chad Sanderson: "Så jeg tror, at alle virksomheder, der ønsker at udnytte AI, er nødt til at udarbejde en datastrategi. Og jeg tror, at der vil være to datastrategier, som vil være hyperrelevante for alle virksomheder.

Den første er, at lige nu er de store iterative modeller, LLM'erne, de offentligt tilgængelige LLM'er, som vi alle kender til, som f.eks. OpenAI, Cloud, Gemini, AnthropicDe bruger alle primært offentligt tilgængelige data, data, som du kan få fra internettet.

Og det er bestemt nyttigt for en bred, generel model. Men en af udfordringerne med disse LLM'er er noget, der hedder kontekstvinduer, hvilket betyder, at jo mere information de har at ræsonnere over, jo dårligere et job gør de. Så jo mere snæver en opgave, du kan give dem med en begrænset mængde kontekst, jo mere effektive er de.

Det er lidt ligesom en person, ikke? Hvis jeg giver dig information om en hel bog og derefter spørger dig om et helt bestemt afsnit på side 73, vil din evne til at huske det sandsynligvis være lav. Men hvis jeg kun giver dig et kapitel at læse, vil du sandsynligvis gøre et meget bedre stykke arbejde.

Så en af pointerne er, at jeg tror, at mange af disse generelle modeller ikke vil være så nyttige for store virksomheder. Og vi vil begynde at se mindre og mindre modeller, der er mere kontekstdrevne. Så de er baseret på mindre kontekster.

Og måden, hvorpå man får en finjusteret kontekst af høj kvalitet, er ved at få meget finjusterede, gode data om den specifikke ting, man kigger på. Og jeg tror, at data kommer til at blive den konkurrencemæssige voldgrav for de fleste virksomheder.

Så jeg tror, at det bliver en kæmpe investering, som mange virksomheder bliver nødt til at foretage. Vi er nødt til at indsamle så mange data af høj kvalitet, som vi overhovedet kan, så vi kan bruge dem i disse modeller og ikke bruge de bredere modeller med de større kontekstvinduer."

Q: Hvordan kommer ting som GDPR og CCPA i Californien til at påvirke, hvordan folk og virksomheder håndterer datakvalitet og -sikkerhed?

Chad Sanderson: "Jeg tror, at GDPR og CCPA er rigtig gode eksempler på, hvorfor mange virksomheder er bekymrede for, hvordan reguleringen af disse generative modeller ser ud i fremtiden.

Selv hvis USA siger, at "det her er okay", og EU beslutter, at det ikke er det, så skal man i sidste ende anvende disse standarder på alle, ikke? Det store problem med GDPR var, at man ikke rigtig kan se, om en kunde, der besøger ens hjemmeside, er fra Europa eller USA.

Og selvfølgelig kan du lave geolokalisering og den slags. Men du har måske en europæer i USA, der bruger din applikation, og GDPR skelner ikke mellem den person og en person, der faktisk bor i Europa. Du skal have mulighed for at behandle dem på samme måde.

Og det betyder i praksis, at man skal behandle alle kunder ens, for man ved ikke, hvem personen på den anden side er. Og det kræver en masse styring, en masse meget interessant teknologisk innovation, en masse ændringer i, hvordan man håndterer markedsføring og den slags. Og jeg tror, vi kommer til at se noget lignende med kunstig intelligens, når lovgivningen for alvor begynder at komme på plads.

Europa er allerede begyndt at presse på. Og det er derfor, det er mere sikkert for mange virksomheder at gøre deres egne ting, ikke? Jeg har min egen indhegnede have.

Jeg bruger kun de data, jeg indsamler fra vores egne applikationer. Og de data forsvinder ikke. Vi følger ikke kunderne rundt på internettet.

Vi ser bare på mønstrene for, hvordan de rent faktisk bruger vores tjenester. Jeg tror, det kommer til at blive ret stort. Den anden ting, jeg tror, vil blive stor, er dataleverandører.

Så dataleverandører har eksisteret i meget lang tid, eller data som en tjeneste, hvor du siger: "Se, jeg vil give dig opdaterede oplysninger om vejret, og du betaler mig for at få adgang til de oplysninger. Og det er mig, der allerede er gået igennem forhindringerne for at gøre det sikkert og tilgængeligt og gøre det troværdigt. Og jeg sørger for, at datakvaliteten er høj.

Det sker allerede. Men jeg tror, at det vil eksplodere i løbet af de næste fem til ti år, hvis du har brug for data, som du ikke kan indsamle fra dine egne interne applikationer. Og i den verden tror jeg, at konceptet med disse kontrakter vil blive endnu vigtigere.

Og det bliver knyttet til en bogstavelig kontrakt. Hvis jeg betaler for, at data skal se ud på en bestemt måde, så har jeg visse forventninger til dem.

Jeg forventer ikke, at de data pludselig ændrer sig fra sidste gang, du gav mig dem, til i dag, for nu kan de virkelig have indflydelse på min maskinlæringsmodel, som har indflydelse på min bundlinje.

Vi interagerer med AI-værktøjer på daglig basis, men vi tænker næsten aldrig på de data, som disse modeller er afhængige af. Datakuratering og -styring bliver afgørende, især for virksomheder, der anvender AI internt."

Datakuratering, kvalitetsstyring og -kontrol bliver mere og mere afgørende, efterhånden som virksomhederne udvikler produkter, der er afhængige af konstant gode data.

Hvis du vil vide mere om datakontrakter, og hvordan du får mest muligt ud af din virksomheds data, kan du kontakte Chad Sanderson eller få mere at vide på Gable.ai.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser