Intervju med Chad Sanderson Chad Sanderson VD för dataavtalsplattformen Gable.ai

9 maj 2024

  • Chad Sanderson, VD och grundare av Gable, hjälper organisationer att förbättra datakvaliteten i stor skala
  • Sanderson säger att dataavtal kan hjälpa företag att hantera dynamisk företagsdata på ett säkert sätt
  • Ägande och hantering av data är avgörande för framgångsrika AI-dataprodukter

När företag lanserar AI-verktyg för företag upptäcker de ofta att deras datasjö må vara djup, men den är rörig. Även om de börjar med noggrant sammanställda data kan dålig hantering av dataförändringar leda till allvarliga konsekvenser nedströms.

Chad Sanderson är VD och grundare av Gable.ai där han hjälper organisationer att förbättra datakvaliteten i stor skala.

Jag fick prata med honom om vikten av datakvalitet och hur datakontrakt kan säkerställa att applikationer som bygger på stora mängder data bibehåller sin integritet.

Chad Sanderson. Källor: Medföljande

F: Du kommer från en bakgrund som journalist. Vill du berätta för oss hur du hamnade inom data och blev passionerad för datavetenskap och datakvalitet?

Chad Sanderson: "Datavetenskap var något som jag började praktisera som journalist eftersom jag drev min egen webbplats och behövde sätta upp webbanalys. Jag lärde mig alla GA4, jag började köra A-B-tester, mycket grundläggande datavetenskap. Sedan gillade jag det så mycket att jag gjorde det till mitt heltidsjobb, lärde mig själv statistik och började arbeta för Oracle som analytiker och datavetare.

Sedan började jag leda team inom dataområdet. Först var det mer på experiment- och analysteam. Sedan började jag röra mig mer mot datateknik och i slutändan mot infrastruktur, datainfrastrukturplattformar.

Så jag arbetade med Microsofts plattform för artificiell intelligens. Och sedan ledde jag också AI- och dataplattformen på ett fraktteknikföretag i sent skede som heter Convoy."

F: Du talade nyligen på MDS Fest om datakontrakt och hur det gör det möjligt för företag att ha denna federerade datastyrning. Vill du kortfattat förklara vad det handlar om?

Chad Sanderson: "Datakontrakt är en slags implementeringsmekanism för federerad datastyrning och federerad datahantering.

I grund och botten, i den gamla världen, så i den äldre världen, on-prem, för 20 år sedan, hade du dataarkitekter som skulle bygga ett helt dataekosystem på ett företag, med början från transaktionsdatabaserna, ETL-systemen, alla de olika mekanismerna som du transformerar data och i princip förbereder dem för analys och datavetenskap och AI.

Och alla dessa data tillhandahölls forskarna från ett centraliserat team. Man kan tänka på det på samma sätt som en bibliotekarie sköter ett bibliotek.

De ser till vilka böcker som kommer in, vilka böcker som går ut, hur böckerna är organiserade, och det gör det mycket enkelt för forskare att hitta den information de behöver för sina projekt.

Men det som hände 15 år senare, 20 år senare, var att vi gick över till molnet och mjukvaruingenjörer, och mjukvaran åt upp världen, som Mark Andreessen säger, och varje företag bestämde sig för att bli ett mjukvaruföretag. Det sätt på vilket företag drev mjukvaruföretag var genom att låta ingenjörsteamen arbeta så snabbt som möjligt för att bygga applikationer på ett superiterativt, experimentellt sätt.

Det innebar att all data som dessa applikationer genererade inte längre var föremål för dataarkitektens planering av strukturen och hur den skulle utformas och organiseras. Du tog bara all den här informationen och kastade den på en plats som heter datasjön. Och datasjön var väldigt rörig.

Ansvaret för att göra något vettigt av all denna typ av träskig information föll på dataingenjören. Och så finns det lite av att leva i båda världarna där du har det decentraliserade, helt federerade applikationslagret och ett mycket, mycket fortfarande centraliserat datalager och datatekniklag som gör sitt bästa för att göra något vettigt av det.

Datakontraktet är en mekanism för datateam och datateknikteam i senare led att säga: "Vi börjar använda de här uppgifterna på ett visst sätt.

Vi har vissa förväntningar på den. Och det innebär att de ingenjörer som skapar datan sedan tar över ägandet av den på samma sätt som en dataarkitekt skulle ha tagit över ägandet av hela systemet ett år tidigare. Och det är det som gör att styrningen och kvaliteten faktiskt kan skalas upp.

Om man inte har det blir det bara en väldigt kaotisk situation."

F: Och det är skräp in skräp ut typ av situation. Om du ändrar något mycket litet i dina data kan det få djupgående konsekvenser nedströms.

Chad Sanderson: "Ja, det är helt rätt. Och det finns många företag som har haft riktigt olyckliga effekter från sina AI-modeller bara genom relativt små förändringar som applikationsutvecklarna inte tycker är en stor sak.

Låt oss till exempel säga att du samlar in någons födelsedag eftersom du automatiskt vill skicka dem ett mycket trevligt födelsedagsmeddelande.

Du kanske lagrar födelsedagsinformationen som tre kolumner med födelsedagsmånad, födelsedagsår och födelsedatum. Och du tar all den informationen och sedan kan du göra några snygga saker med den. Men om ingenjören säger: "Vet du vad, det är dumt att dela upp det här i tre olika kolumner.

Jag vill bara ha en kolumn för datumet. Det är helt okej. Och de kommer att göra det eftersom det gör deras applikation lättare att använda.

Men alla som är nedströms och använder dessa data förväntar sig tre kolumner. Så om de i morgon bara får en, och två som de använde är borta, kommer det att spränga allt som de hade byggt upp.

Det är sådant som händer hela tiden på företagen."

F: Du är VD för ett företag som heter Gable. Vilka är några av de viktigaste utmaningarna som du ser att företag står inför som du hoppas kunna lösa? Hur hanterar din plattform några av dessa frågor?

Chad Sanderson: "Så den största utmaningen som vi har hört från de flesta företag som går in i AI- och ML-utrymmet, åtminstone från datasidan, är egentligen två saker. Den första är ägande. Så ägande betyder att om jag är någon som bygger ut AI-system, bygger jag modellerna, jag behöver någon som tar ägande över de data som jag använder och ser till att dessa data behandlas som ett API.

Om du är programvaruutvecklare och förlitar dig på någon annans applikation gör du det genom ett gränssnitt. Det gränssnittet är väldokumenterat. Det har mycket tydliga förväntningar.

Det finns SLA:er. Det har en viss mängd drifttid som förväntas fungera. Om det finns buggar är det någon som faktiskt går och fixar dem.

Och det är därför du kan känna dig bekväm med att göra dig beroende av applikationer som inte bara är det som du har byggt. Och i data är det vad vi gör när vi extraherar data från någon annans datauppsättning, som till exempel en databas. Och sedan bygger vi en modell ovanpå den.

Vi tar ett beroende av ett gränssnitt, men i dag finns det inte mycket ägande av det gränssnittet. Det finns ingen riktig SLA. Det finns inte mycket dokumentation.

Det kan ändras när som helst. Och om det är så API:er fungerar skulle hela vårt internetekosystem vara i kaos. Ingenting skulle fungera.

Så det här är vad många företag och datateam verkligen längtar efter just nu, är möjligheten att lita på att de data som de använder kommer att vara samma data i morgon som de var igår. Det är en bit. Och sedan är ett av de riktigt viktiga resultaten av det datakvalitet.

Vi är måna om att se till att data motsvarar våra förväntningar. Så låt oss säga att jag arbetar med några fraktdata och att jag konsumerar information om fraktavstånd för gods. Jag förväntar mig alltid att funktionen för fraktavstånd ska betyda det jag förväntar mig att den ska betyda och inte plötsligt betyda något annat, eller hur?

Om jag säger att det här är ett fraktavstånd i miles, så vill jag inte att det i morgon plötsligt ska betyda kilometer eftersom AI:n inte kommer att veta att det har ändrats från miles till kilometer. Den har inte sammanhanget för att förstå det.

Vad Gable handlar om är att se till att de mycket tydliga förväntningarna och SLA:erna finns på plats, att alla data som teamen använder för AI är tydligt ägda och att hela organisationen förstår hur olika personer inom företaget använder data och var den ömma kärleken och omsorgen faktiskt behövs."

F: Mycket av fokus ligger på att säkerställa datakvaliteten för att möjliggöra AI, men gör AI det möjligt för dig att göra det bättre?

Chad Sanderson: "AI är fantastiskt, ärligt talat. Jag tror att vi befinner oss mitt i en hype-cykel, definitivt, 100%.

Så folk kommer att komma med en del påståenden om vad AI kan göra som är helt otroliga. Men jag tror att om man är realistisk och bara fokuserar på vad AI kan göra just nu, finns det redan mycket värde som ökar för vårt företag i synnerhet. Så Gables primära mervärde, det som vi gör annorlunda än alla andra, är kodtolkning.

Gable är inte ett dataverktyg. Vi är ett programvaruteknikverktyg som är byggt för komplexa data. Och vi kan tolka kod som i slutändan producerar data för att ta reda på vad den koden gör.

Så om jag har, låt oss säga, en händelse som sänds ut från ett frontend-system, och varje gång någon klickar på en knapp, finns det kod som säger, hej, den här knappen är klickad. Jag vill skicka en händelse som heter knapp klickad till en databas. Och sedan från den databasen kommer vi att skicka den till vår datasjö.

Och sedan skickar vi det från vår datasjö till modellträning för något AI-system. Och vad Gable kan göra är att säga att om någon programvaruingenjör bestämmer sig för att ändra hur den händelse i koden där man klickar på en knapp är strukturerad, vilket skulle påverka alla nedströms, kan vi känna igen att det har hänt under DevOps-processen.

Så när en programvaruingenjör går igenom GitHub och gör ändringar i sin kod kan du säga: "Vänta lite, innan du faktiskt gör den här ändringen har vi upptäckt att något har gått fel här.

En stor del av kodtolkningen har vi byggt ut med hjälp av mer maskininlärning och metoder baserade på statisk analys.

Men AI, som är mycket skicklig på att känna igen konventioner, som vanliga kodningsmönster, gör ett riktigt bra jobb med att ge sammanhang till varför människor gör kodändringar eller vad deras avsikt är. Så det finns många häftiga sätt som vi kan använda AI på för just vår produkt."

F: Om företag vill dra nytta av AI kommer de att behöva data. Vilka ser du som de största möjligheterna för företag att hantera och utveckla sina data? Hur kan de dra nytta av det och förbereda sig för det?

Chad Sanderson: "Så jag tror att varje företag som vill utnyttja AI måste komma med en datastrategi. Och jag tror att det kommer att finnas två datastrategier som kommer att vara hyperrelevanta för alla företag.

Det första är att just nu är de stora iterativa modellerna, LLM:erna, de offentliga LLM:erna som vi alla känner till, som OpenAI, Cloud, Gemini, AnthropicDe använder alla huvudsakligen allmänt tillgängliga data, data som du kan hämta från internet.

Och det här är definitivt användbart för en bred, allmän modell. Men en av utmaningarna med dessa LLM:er är något som kallas kontextfönster, vilket innebär att ju mer information de har att resonera över, desto sämre jobb gör de. Så ju smalare en uppgift du kan ge dem med en begränsad mängd sammanhang, desto effektivare är de.

Det är ungefär som en person, eller hur? Om jag ger dig en bok med information och sedan frågar dig om ett mycket specifikt stycke på sidan 73, kommer din förmåga att komma ihåg det sannolikt att vara låg. Men om jag bara ger dig ett kapitel att läsa, kommer du sannolikt att göra ett mycket bättre jobb med det.

Så det är typ av en punkt är som många av dessa allmänna modeller, jag tror inte kommer att vara lika användbara för stora företag. Och vi kommer att börja se mindre och mindre modeller som är mer kontextdrivna. Så de är baserade på mindre sammanhang.

Och sättet att få ett finjusterat, högkvalitativt sammanhang är genom att få mycket finjusterade, bra data om den specifika, vad det nu är för specifik sak du tittar på. Och jag tror att detta kommer att bli data kommer att bli den konkurrenskraftiga vallgraven för de flesta företag.

Så jag tror att det kommer att bli en enorm investering som många företag kommer att behöva göra. Vi måste samla in så mycket högkvalitativ data som möjligt så att vi kan mata in den i de här modellerna och inte använda de bredare modellerna med de större kontextfönstren."

F: Hur kommer GDPR och CCPA i Kalifornien att påverka hur människor och företag hanterar datakvalitet och datasäkerhet?

Chad Sanderson: "Jag tycker att GDPR och CCPA är riktigt bra exempel på varför många företag är oroade över hur regleringen av dessa generativa modeller ser ut i framtiden.

Även om USA säger att "det här är okej" och EU beslutar att det inte är det, så måste man i slutändan tillämpa dessa standarder på alla, eller hur? Den stora grejen med GDPR var att man inte riktigt kan se om en kund som besöker ens webbplats kommer från Europa eller USA.

Och visst kan du göra geolokalisering och liknande saker. Men du kanske har en europé i USA som använder din applikation och GDPR gör ingen skillnad mellan den personen och någon som faktiskt bor i Europa. Du måste ha möjlighet att behandla dem på samma sätt.

Och det innebär att man måste behandla alla kunder på samma sätt, eftersom man inte vet vem personen på andra sidan är. Och det kräver en hel del styrning, en hel del mycket intressant teknisk innovation, en hel del förändringar i hur du hanterar marknadsföring och liknande saker. Och jag tror att vi förmodligen kommer att se något liknande med AI när regleringen verkligen börjar komma ut.

Europa börjar redan driva på det. Och det är därför det är säkrare för många företag att göra sina egna grejer, eller hur? Jag har min egen muromgärdade trädgård.

Jag använder bara de data som jag samlar in från våra egna applikationer. Och den datan försvinner inte. Vi följer inte kunderna runt på internet.

Vi tittar bara på mönstren för hur de faktiskt använder våra tjänster. Jag tror att det kommer att bli ganska stort. En annan sak som jag tror kommer att bli stor är dataleverantörer.

Så dataleverantörer har funnits väldigt länge, eller data som tjänst, där man säger: "Jag ska ge dig aktuell information om vädret, och du betalar mig för att få tillgång till den informationen. Och jag är den som redan har gått igenom hindren för att göra det säkert och göra det tillgängligt och göra det pålitligt. Och jag ser till att datakvaliteten är hög.

Det händer redan. Men jag tror att det kommer att explodera under de kommande fem till tio åren om du behöver data som du inte kan samla in från dina egna interna applikationer. Och i den världen tror jag att konceptet med dessa kontrakt kommer att bli ännu viktigare.

Och det kommer att vara kopplat till ett bokstavligt kontrakt. Om jag betalar för att data ska se ut på ett visst sätt så har jag vissa förväntningar på den.

Jag förväntar mig inte att dessa uppgifter plötsligt ska förändras från förra gången du gav dem till mig till idag, för nu kan de verkligen påverka min maskininlärningsmodell, vilket påverkar min slutresultat.

Vi interagerar med AI-verktyg dagligen, men vi tänker nästan aldrig på den data som dessa modeller bygger på. Datakurering och datahantering kommer att bli avgörande, särskilt för företag som använder AI internt."

Datakurering, kvalitetshantering och kontroll kommer att bli allt viktigare i takt med att företagen bygger produkter som är beroende av konsekvent bra data.

Om du vill veta mer om dataavtal och hur du kan få ut mesta möjliga av ditt företags data kan du kontakta Chad Sanderson eller läs mer på Gable.ai.

Bli en del av framtiden


PRENUMERERA IDAG

Tydlig, kortfattad och heltäckande. Få grepp om AI-utvecklingen med DagligaAI

Eugene van der Watt

Eugene kommer från en bakgrund som elektronikingenjör och älskar allt som har med teknik att göra. När han tar en paus från att konsumera AI-nyheter hittar du honom vid snookerbordet.

×

GRATIS PDF EXKLUSIV
Ligg steget före med DailyAI

Registrera dig för vårt veckovisa nyhetsbrev och få exklusiv tillgång till DailyAI:s senaste e-bok: "Mastering AI Tools: Din 2024-guide till förbättrad produktivitet".

*Genom att prenumerera på vårt nyhetsbrev accepterar du vår Integritetspolicy och våra Villkor och anvisningar