Intervju: Chad Sanderson, administrerende direktør i datakontraktplattformen Gable.ai

9. mai 2024
  • Chad Sanderson, administrerende direktør og grunnlegger av Gable, hjelper organisasjoner med å forbedre datakvaliteten i stor skala
  • Sanderson sier at datakontrakter kan hjelpe bedrifter med å håndtere dynamiske bedriftsdata på en trygg måte
  • Eierskap til og forvaltning av data er avgjørende for vellykkede AI-dataprodukter

Når bedrifter tar i bruk AI-verktøy, oppdager de ofte at datasjøen er dyp, men rotete. Selv om de starter med nøye kuraterte data, kan dårlig håndtering av dataendringer føre til alvorlige konsekvenser nedstrøms.

Chad Sanderson er administrerende direktør og grunnlegger av Gable.ai, der han hjelper organisasjoner med å forbedre datakvaliteten i stor skala.

Jeg fikk snakke med ham om viktigheten av datakvalitet og hvordan datakontrakter kan sikre at applikasjoner som bygger på store datamengder, opprettholder integriteten.

Chad Sanderson. Kilde: Supplied

Spørsmål: Du har bakgrunn som journalist. Vil du fortelle oss hvordan du endte opp med å jobbe med data og bli lidenskapelig opptatt av datavitenskap og datakvalitet?

Chad Sanderson: "Datavitenskap var noe jeg begynte å praktisere som journalist fordi jeg drev mitt eget nettsted og trengte å sette opp webanalyse. Jeg lærte meg GA4, jeg begynte å kjøre A-B-tester, helt grunnleggende datavitenskap. Og så likte jeg det så godt at jeg gjorde det til en heltidsjobb, lærte meg selv statistikk, og endte opp med å jobbe for Oracle som analytiker og dataforsker.

Og så begynte jeg å lede team på dataområdet. Først var det mer eksperimentering og analyseteam. Så begynte jeg å jobbe mer med datateknikk, og til slutt med infrastruktur, datainfrastrukturplattformer.

Så jeg jobbet med Microsofts plattform for kunstig intelligens. Og så ledet jeg også AI- og dataplattformen i et fraktteknologiselskap i en sen fase som heter Convoy."

Spørsmål: Du snakket nylig på MDS Fest om datakontrakter og hvordan det gjør det mulig for selskaper å ha denne fødererte datastyringen. Vil du kort forklare hva det handler om?

Chad Sanderson: "Datakontrakter er en slags implementeringsmekanisme for føderert datastyring og føderert datahåndtering.

I den gamle verdenen, altså i den eldre verdenen, for 20 år siden, hadde du dataarkitekter som bygget opp et helt dataøkosystem i et selskap, fra transaksjonsdatabaser, ETL-systemer og alle de ulike mekanismene som transformerer data og forbereder dem for analyse, datavitenskap og kunstig intelligens.

Og alle disse dataene ble levert til forskerne fra et sentralisert team. Du kan tenke på det på samme måte som en bibliotekar driver et bibliotek.

De sørger for hvilke bøker som kommer inn, hvilke bøker som går ut, hvordan bøkene er organisert, og det gjør det veldig enkelt for forskere å finne den informasjonen de trenger til prosjektene sine.

Men det som skjedde 15 år senere, 20 år senere, var at vi gikk over til skyen og programvareingeniører, og programvare spiste verden, som Mark Andreessen sier, og alle bedrifter bestemte seg for å bli en programvarevirksomhet. Måten selskapene drev programvarevirksomhet på, var ved å la ingeniørteamene jobbe så raskt de kunne for å bygge applikasjoner på en super iterativ, eksperimentell måte.

Det betydde at alle dataene som disse applikasjonene genererte, ikke lenger var underlagt dataarkitektenes planlegging av strukturen og hvordan den var utformet og organisert. Man tok bare all denne informasjonen og kastet den inn på ett sted som ble kalt datasjøen. Og datasjøen var veldig rotete.

Ansvaret for å få noe fornuftig ut av all denne uoversiktlige informasjonen falt på dataingeniøren. Så det er litt som å leve i begge verdener, der du har det desentraliserte, fullstendig fødererte applikasjonslaget og et veldig, veldig fortsatt sentralisert datalag og dataingeniørteam som gjør sitt beste for å få noe fornuftig ut av det.

Datakontrakten er en mekanisme som nedstrøms datateam og datatekniske team kan bruke til å si: "Hei, vi begynner å bruke disse dataene på en bestemt måte.

Vi har noen forventninger til det. Og det betyr at ingeniørene som skaper dataene, tar eierskap til dem på samme måte som en dataarkitekt ville tatt eierskap til hele systemet et år tidligere. Og det er det som faktisk gjør det mulig å skalere styring og kvalitet.

Hvis du ikke har det, får du bare en veldig kaotisk situasjon."

Spørsmål: Og det er en slags garbage in garbage out-situasjon. Hvis du endrer noe veldig lite i dataene dine, kan det få store konsekvenser nedstrøms.

Chad Sanderson: "Ja, det er helt riktig. Og det er mange virksomheter som har hatt svært uheldige konsekvenser av AI-modellene sine, bare på grunn av relativt små endringer som applikasjonsutviklerne ikke synes er så viktige.

La oss for eksempel si at du samler inn noens bursdag fordi du automatisk vil sende dem en veldig hyggelig bursdagsmelding.

Du lagrer kanskje bursdagsinformasjonen som tre kolonner med bursdagsmåned, bursdagsår og bursdagsdato. Og så tar du all den informasjonen, og så kan du gjøre noen fancy ting med den. Men hvis ingeniøren sier: "Vet du hva, det er dumt å dele dette opp i tre forskjellige kolonner.

Jeg vil bare ha én kolonne for datoen. Det er helt greit. Og de kommer til å gjøre det fordi det gjør applikasjonen enklere å bruke.

Men alle som bruker dataene nedstrøms, forventer tre kolonner. Så hvis de i morgen bare får én, og de to de brukte, er borte, vil det ødelegge alt de hadde bygget opp.

Det er slike ting som skjer hele tiden i selskaper."

Spørsmål: Du er administrerende direktør i selskapet Gable. Hva er noen av de viktigste utfordringene du ser at selskaper står overfor, og som du håper å kunne løse? Hvordan løser plattformen din noen av disse problemene?

Chad Sanderson: "Så den største utfordringen vi har hørt fra de fleste selskaper som beveger seg inn på AI- og ML-området, i hvert fall fra datasiden, er egentlig to ting. Den første er eierskap. Så eierskap betyr at hvis jeg er noen som bygger ut AI-systemer, bygger jeg modellene, jeg trenger noen til å ta eierskap over dataene jeg bruker og sørge for at dataene behandles som et API.

Hvis du er programvareingeniør og er avhengig av en annens applikasjon, gjør du det gjennom et grensesnitt. Det grensesnittet er veldokumentert. Det har veldig klare forventninger.

Det finnes SLA-er. Det har en viss oppetid som forventes å fungere. Hvis det er feil, er det noen som faktisk fikser dem.

Og dette er grunnen til at du kan føle deg komfortabel med å være avhengig av applikasjoner som ikke bare er det du har bygget. Og når det gjelder data, er det det vi gjør når vi trekker ut data fra andres datasett, som for eksempel en database. Og så bygger vi en modell på toppen av det.

Vi er avhengige av et grensesnitt, men i dag er det ikke mye eierskap til det grensesnittet. Det finnes ingen reell SLA. Det finnes ikke mye dokumentasjon.

Det kan endres når som helst. Og hvis det er slik API-er fungerer, ville hele internett-økosystemet vårt vært i kaos. Ingenting ville fungert.

Så det er dette mange selskaper og datateam virkelig higer etter akkurat nå, nemlig muligheten til å stole på at dataene de bruker, kommer til å være de samme i morgen som de var i går. Det er den ene biten. Og så er datakvalitet et av de virkelig viktige resultatene av dette.

Vi er opptatt av å sørge for at dataene stemmer overens med forventningene våre. La oss si at jeg jobber med fraktdata og bruker informasjon om fraktavstander for gods. Jeg forventer alltid at funksjonen for fraktavstand betyr det jeg forventer at den skal bety, og ikke plutselig betyr noe annet, ikke sant?

Hvis jeg sier at dette er en fraktdistanse i miles, vil jeg ikke at det plutselig skal bety kilometer i morgen, for den kunstige intelligensen kommer ikke til å vite at det har endret seg fra miles til kilometer. Den har ikke konteksten til å forstå det.

Det Gable handler om, er å sørge for at det finnes klare forventninger og SLA-er, at alle dataene som teamene bruker til AI, har et tydelig eierskap, og at hele organisasjonen forstår hvordan de ulike personene i selskapet bruker dataene, og hvor det faktisk er behov for omsorg og kjærlighet."

Spørsmål: Mye av fokuset ligger på å sikre datakvaliteten for å muliggjøre AI, men gjør AI det mulig for deg å gjøre det bedre?

Chad Sanderson: "AI er fantastisk, ærlig talt. Jeg tror vi er midt i en hype-syklus, definitivt, 100%.

Så folk kommer til å komme med noen påstander om hva kunstig intelligens kan gjøre som er helt utenkelige. Men jeg tror at hvis du er realistisk og bare fokuserer på hva AI kan gjøre akkurat nå, er det allerede mye verdi som tilfører spesielt vårt selskap. Gables primære verdiskapning, det vi gjør annerledes enn alle andre, er kodetolkning.

Gable er ikke et dataverktøy. Vi er et verktøy for programvareteknikk som er bygget for kompleksiteten i data. Og vi kan tolke kode som til slutt produserer data, for å finne ut hva koden gjør.

Så hvis jeg har, la oss si, en hendelse som sendes ut fra et frontend-system, og hver gang noen klikker på en knapp, er det kode som sier: Hei, denne knappen er klikket. Jeg vil sende en hendelse som heter "klikket på knapp" til en database. Og så skal vi sende det fra databasen til datasjøen vår.

Og så sender vi det fra datasjøen vår til modelltrening for et AI-system. Og det Gable kan gjøre, er å si at hvis en programvareingeniør bestemmer seg for å endre hvordan en hendelse i koden der det klikkes på en knapp er strukturert, noe som vil ha innvirkning på alle nedstrøms, kan vi gjenkjenne at det har skjedd i løpet av DevOps-prosessen.

Så når en programvareingeniør går gjennom GitHub og gjør endringer i koden sin, kan du si: "Å, vent litt, før du faktisk gjør denne endringen, har vi oppdaget at noe har gått galt her.

Mye av kodetolkningen har vi bygget ut ved hjelp av mer maskinlæring og metoder basert på statisk analyse.

Men AI, som er svært dyktig til å gjenkjenne konvensjoner, som vanlige kodingsmønstre, gjør en veldig god jobb med å gi kontekst til hvorfor folk gjør kodeendringer eller hva hensikten deres er. Så det finnes mange kule måter vi kan bruke kunstig intelligens på, spesielt for vårt produkt."

Spørsmål: Hvis selskaper ønsker å utnytte kunstig intelligens, trenger de data. Hva ser du som de største mulighetene for bedrifter til å håndtere og utvikle dataene sine? Hvordan kan de utnytte dette og forberede seg på det?

Chad Sanderson: "Så jeg tror at alle selskaper som ønsker å utnytte kunstig intelligens, må utarbeide en datastrategi. Og jeg tror at det kommer til å være to datastrategier som vil være hyperrelevante for alle virksomheter.

Det første er at akkurat nå er de store iterative modellene, LLM-ene, de offentlige LLM-ene som vi alle kjenner til, som OpenAI, Cloud, Gemini, Anthropic...de bruker primært offentlig tilgjengelige data, data som du kan hente fra internett.

Og dette har definitivt nytteverdi for en bred, generell modell. Men en av utfordringene med disse LLM-ene er noe som kalles kontekstvinduer, noe som betyr at jo mer informasjon de har å resonnere over, desto dårligere jobb gjør de. Så jo smalere oppgave du kan gi dem med en begrenset mengde kontekst, jo mer effektive er de.

Det er litt som en person, ikke sant? Hvis jeg gir deg informasjon om en hel bok og så spør deg om et helt spesifikt avsnitt på side 73, er det sannsynlig at du ikke kommer til å huske det så godt. Men hvis jeg bare gir deg ett kapittel å lese, vil du sannsynligvis gjøre en mye bedre jobb.

Så det er et poeng at mange av disse generelle modellene ikke kommer til å være like nyttige for store bedrifter. Og vi kommer til å begynne å se mindre og mindre modeller som er mer kontekstdrevne. Så de er basert på mindre kontekster.

Og måten du får en finjustert kontekst av høy kvalitet på, er ved å få svært gode data om den spesifikke tingen du ser på. Og jeg tror dette kommer til å bli dataene som kommer til å bli konkurransefortrinnet for de fleste virksomheter.

Så jeg tror det kommer til å bli en enorm investering som mange selskaper må gjøre. Vi må samle inn så mye data av høy kvalitet som mulig, slik at vi kan mate dem inn i disse modellene og ikke bruke de bredere modellene med større kontekstvinduer."

Spørsmål: Hvordan kommer ting som GDPR og CCPA i California til å påvirke hvordan folk og selskaper håndterer datakvalitet og -sikkerhet?

Chad Sanderson: "Jeg tror GDPR og CCPA er veldig gode eksempler på hvorfor mange bedrifter er bekymret for hvordan reguleringen av disse generative modellene vil se ut i fremtiden.

Selv om USA sier at "dette er greit", og EU bestemmer seg for at det ikke er det, må du til syvende og sist bruke disse standardene på alle, ikke sant? Det store problemet med GDPR var at du egentlig ikke kan se om en kunde som besøker nettstedet ditt, kommer fra Europa eller USA.

Og du kan absolutt gjøre geolokalisering og slike ting. Men du kan ha en europeer i USA som bruker applikasjonen din, og GDPR diskriminerer ikke mellom denne personen og en som faktisk bor i Europa. Du må ha muligheten til å behandle dem likt.

Og det betyr i praksis at du må behandle alle kunder likt, for du vet egentlig ikke hvem personen på den andre siden er. Og det krever mye styring, mye interessant teknologisk innovasjon, mange endringer i hvordan du håndterer markedsføring og slike ting. Og jeg tror vi sannsynligvis kommer til å se noe lignende med kunstig intelligens når reguleringen virkelig begynner å komme på plass.

Europa har allerede begynt å presse på. Og det er derfor det er tryggere for mange bedrifter å gjøre sine egne ting, ikke sant? Jeg har min egen inngjerdede hage.

Jeg bruker bare data som jeg samler inn fra våre egne applikasjoner. Og de dataene forsvinner ikke. Vi følger ikke kundene rundt på Internett.

Vi ser bare på mønstrene for hvordan de faktisk bruker tjenestene våre. Jeg tror det kommer til å bli ganske stort. Det andre jeg tror kommer til å bli stort, er dataleverandører.

Så dataleverandører har eksistert veldig lenge, eller data som en tjeneste, der du sier: "Hør her, jeg skal gi deg oppdatert informasjon om været, og du betaler meg for å få tilgang til den informasjonen. Og det er jeg som allerede har gått gjennom alle hindringene for å gjøre den trygg, tilgjengelig og pålitelig. Og jeg sørger for at datakvaliteten er høy.

Det er allerede i ferd med å skje. Men jeg tror at dette kommer til å eksplodere i løpet av de neste fem til ti årene, hvis du trenger data som du ikke kan samle inn fra dine egne interne applikasjoner. Og i en slik verden tror jeg at konseptet med disse kontraktene kommer til å bli enda viktigere.

Og det kommer til å være knyttet til en bokstavelig kontrakt. Hvis jeg betaler for at dataene skal se ut på en bestemt måte, har jeg visse forventninger til dem.

Jeg forventer ikke at dataene plutselig skal endre seg fra forrige gang du ga meg dem til i dag, for nå kan de virkelig ha innvirkning på maskinlæringsmodellen min, som igjen har innvirkning på bunnlinjen min.

Vi samhandler med AI-verktøy hver eneste dag, men vi tenker nesten aldri på dataene som disse modellene er avhengige av. Datakuratering og -håndtering kommer til å bli avgjørende, spesielt for selskaper som bruker AI internt."

Datakuratering, kvalitetsstyring og -kontroll kommer til å bli stadig viktigere etter hvert som selskapene bygger produkter som er avhengige av gode data.

Hvis du vil vite mer om datakontrakter og hvordan du kan få mest mulig ut av bedriftens data, kan du kontakte Chad Sanderson eller les mer på Gable.ai.

Bli med i fremtiden


ABONNER I DAG

Tydelig, kortfattet og omfattende. Få et grep om AI-utviklingen med DagligAI

Eugene van der Watt

Eugene har bakgrunn som elektroingeniør og elsker alt som har med teknologi å gjøre. Når han tar en pause fra AI-nyhetene, finner du ham ved snookerbordet.

×
 
 

GRATIS PDF EKSKLUSIV
Hold deg i forkant med DailyAI


 

Meld deg på vårt ukentlige nyhetsbrev og få eksklusiv tilgang til DailyAIs nyeste e-bok: "Mastering AI Tools: Din 2024-guide til økt produktivitet".



 
 

*Ved å abonnere på vårt nyhetsbrev aksepterer du vår Retningslinjer for personvern og vår Vilkår og betingelser