Interview: Chad Sanderson CEO van gegevenscontractenplatform Gable.ai

9 mei 2024

  • Chad Sanderson, CEO en oprichter van Gable helpt organisaties bij het verbeteren van datakwaliteit op schaal
  • Sanderson zegt dat gegevenscontracten bedrijven kunnen helpen bij het veilig beheren van dynamische bedrijfsgegevens
  • Eigendom en beheer van gegevens is cruciaal voor succesvolle AI-dataproducten

Wanneer bedrijven AI-tools voor bedrijven implementeren, komen ze er vaak achter dat hun datameer misschien wel diep is, maar ook rommelig. Zelfs als ze beginnen met zorgvuldig gecureerde gegevens, kan slecht beheer van gegevensveranderingen leiden tot ernstige gevolgen stroomafwaarts.

Chad Sanderson is de CEO en oprichter van Gable.ai, waar hij organisaties helpt om datakwaliteit op schaal te verbeteren.

Ik sprak met hem over het belang van datakwaliteit en hoe datacontracten ervoor kunnen zorgen dat applicaties die gebouwd zijn op grote hoeveelheden gegevens hun integriteit behouden.

Chad Sanderson. Bron: Geleverd

V: Je hebt een journalistieke achtergrond. Wilt u ons vertellen hoe u bij data terecht bent gekomen en gepassioneerd bent geraakt door datawetenschap en datakwaliteit?

Chad Sanderson: "Datawetenschap was iets dat ik begon te beoefenen als journalist omdat ik mijn eigen website beheerde en ik webanalyse moest instellen. Ik leerde alle GA4, ik begon A-B-tests uit te voeren, heel basale gegevenswetenschap. En toen vond ik het zo leuk dat ik er mijn fulltime baan van maakte, mezelf statistiek leerde en uiteindelijk ging werken voor Oracle als analist en datawetenschapper.

En toen begon ik teams in de dataruimte te managen. Eerst was dat meer op het gebied van experimenten en analyseteams. Daarna ging ik me meer bezighouden met data-engineering en uiteindelijk met infrastructuur, data-infrastructuurplatforms.

Dus werkte ik aan het Microsoft Artificial Intelligence-platform. En toen leidde ik ook het AI- en dataplatform bij een laat vrachttechnologiebedrijf genaamd Convoy."

V: U sprak onlangs op MDS Fest over gegevenscontracten en hoe dat bedrijven in staat stelt om deze gefedereerde gegevensgovernance te hebben. Wilt u kort uitleggen waar dat over gaat?

Chad Sanderson: "Datacontracten zijn een soort implementatiemechanisme van federated data governance en federated data management.

In de oude wereld, dus in de legacywereld, on-prem, had je 20 jaar geleden data-architecten die een compleet data-ecosysteem opbouwden voor een bedrijf, beginnend bij de transactionele databases, de ETL-systemen, alle verschillende mechanismen waarmee je data transformeert en in principe voorbereidt op analyse en data science en AI.

En al die gegevens werden vanuit een gecentraliseerd team aan de wetenschappers verstrekt. Je kunt het op dezelfde manier bekijken als een bibliothecaris een bibliotheek beheert.

Ze zorgen ervoor dat er boeken binnenkomen en uitgaan, hoe de boeken georganiseerd zijn en dat maakt het voor onderzoekers heel gemakkelijk om de informatie te vinden die ze nodig hebben voor hun projecten.

Maar wat er 15 jaar later, 20 jaar later gebeurde, is dat we overgingen op de cloud en software-ingenieurs, en software at the world, zoals Mark Andreessen zegt, en elk bedrijf besloot een softwarebedrijf te worden. De manier waarop bedrijven softwarebedrijven runden was door de engineeringteams zo snel mogelijk applicaties te laten bouwen op een super iteratieve, experimentele manier.

Dat betekende dat alle gegevens die deze applicaties genereerden niet langer onderworpen waren aan de planning van de structuur door de data-architect en hoe deze was ontworpen en georganiseerd. Je nam gewoon al deze informatie en gooide het op één plek die je het data lake noemde. En het data lake was erg rommelig.

De verantwoordelijkheid om van al deze moerassige informatie iets zinnigs te maken, lag bij de data-engineer. En zo is er een beetje leven in beide werelden waar je de gedecentraliseerde, volledig gefedereerde applicatielaag hebt en een zeer, zeer nog steeds gecentraliseerde datalaag en data engineering teams die hun best doen om er iets zinnigs uit te halen.

Het gegevenscontract is een mechanisme voor de downstream datateams en datatechnische teams om te zeggen: hé, we gaan deze gegevens op een bepaalde manier gebruiken.

We hebben er bepaalde verwachtingen van. En dat betekent dat de engineers die de gegevens creëren er eigenaar van worden, net zoals een data-architect een jaar eerder eigenaar zou worden van het hele systeem. En dat maakt het mogelijk om governance en kwaliteit te schalen.

Als je dat niet hebt, dan krijg je een heel chaotische situatie."

V: En het is een soort vuilnis-in-afval-uit-situatie. Als je iets heel kleins in je gegevens verandert, kan dat stroomafwaarts grote gevolgen hebben.

Chad Sanderson: "Ja, dat klopt precies. En er zijn veel bedrijven die echt ongelukkige gevolgen hebben ondervonden van hun AI-modellen, gewoon door relatief kleine veranderingen waarvan de applicatieontwikkelaars denken dat het niets voorstelt.

Laten we bijvoorbeeld zeggen dat je iemands verjaardag verzamelt omdat je hem of haar automatisch een heel leuk verjaardagsbericht wilt sturen.

Je slaat die verjaardagsinformatie misschien op als drie kolommen met verjaardagsmaand, verjaardagsjaar en verjaardagsdatum. En je neemt al die informatie en dan kun je er leuke dingen mee doen. Maar als de ingenieur zegt, weet je wat, dit opsplitsen in drie verschillende kolommen is stom.

Ik wil gewoon één kolom voor de datum. Dat is prima. En ze zullen dat doen omdat het hun applicatie gebruiksvriendelijker maakt.

Maar iedereen die stroomafwaarts die gegevens gebruikt, verwacht drie kolommen. Dus als ze er morgen maar één krijgen en de twee die ze gebruikten zijn verdwenen, dan wordt alles wat ze hadden opgebouwd opgeblazen.

Dat soort dingen gebeurt voortdurend bij bedrijven."

V: U bent de CEO van het bedrijf Gable. Wat zijn enkele van de belangrijkste uitdagingen waarmee bedrijven worden geconfronteerd en die u hoopt op te lossen? Hoe pakt uw platform een aantal van die problemen aan?

Chad Sanderson: "Dus de grootste uitdaging die we hebben gehoord van de meeste bedrijven die zich in de AI- en ML-ruimte begeven, in ieder geval aan de datakant, zijn eigenlijk twee dingen. De eerste is eigenaarschap. Eigenaarschap betekent dat als ik iemand ben die AI-systemen bouwt, ik de modellen bouw, ik iemand nodig heb die eigenaar is van de gegevens die ik gebruik en ervoor zorgt dat die gegevens worden behandeld als een API.

Als je een software engineer bent en je vertrouwt op de applicatie van iemand anders, dan doe je dat via een interface. Die interface is goed gedocumenteerd. Het heeft zeer duidelijke verwachtingen.

Er zijn SLA's. Het heeft een bepaalde hoeveelheid uptime waarvan verwacht wordt dat het werkt. Als er bugs zijn, gaat iemand ze repareren.

En dit is de reden waarom je je op je gemak kunt voelen als je afhankelijk bent van toepassingen die niet alleen het ding zijn dat je hebt gebouwd. En bij gegevens is dat wat we doen als we gegevens uit een dataset van iemand anders halen, zoals bijvoorbeeld een database. En dan bouwen we er een model bovenop.

We zijn afhankelijk van een interface, maar vandaag de dag is er niet veel eigendom van die interface. Er is geen echte SLA. Er is niet veel documentatie.

Het kan op elk moment veranderen. En als API's zo zouden werken, zou ons hele internetecosysteem in chaos verkeren. Niets zou werken.

Dus dit is waar veel bedrijven en datateams op dit moment echt naar hunkeren, namelijk de mogelijkheid om erop te vertrouwen dat de gegevens die ze gebruiken morgen dezelfde gegevens zijn als gisteren. Dat is één onderdeel. En een van de echt essentiële resultaten daarvan is datakwaliteit.

We willen er zeker van zijn dat de gegevens overeenkomen met onze verwachtingen. Laten we zeggen dat ik werk met verzendgegevens en dat ik informatie gebruik over verzendafstanden voor vracht. Ik zou altijd verwachten dat de verzendafstand datgene betekent wat ik verwacht dat het betekent en niet ineens iets anders, toch?

Als ik zeg dat dit de verzendafstand in mijlen is, dan wil ik niet dat het morgen ineens kilometers betekent omdat de AI niet weet dat het veranderd is van mijlen naar kilometers. Hij heeft niet de context om dat te begrijpen.

Waar het bij Gable allemaal om draait, is ervoor te zorgen dat die heel duidelijke verwachtingen en SLA's er zijn, dat alle gegevens die teams gebruiken voor AI duidelijk eigendom zijn en dat de hele organisatie begrijpt hoe verschillende mensen binnen het bedrijf de gegevens gebruiken en waar die liefde en zorg eigenlijk nodig is."

V: Er wordt veel nadruk gelegd op het waarborgen van de datakwaliteit om AI mogelijk te maken, maar stelt AI u ook in staat om dat beter te doen?

Chad Sanderson: "AI is geweldig, eerlijk gezegd. Ik denk dat we midden in een hype-cyclus zitten, zeker, 100%.

Er zullen dus mensen zijn die rare dingen beweren over wat AI kan doen. Maar ik denk dat als je realistisch bent en je focust op wat AI op dit moment kan, er al veel waarde wordt toegevoegd voor ons bedrijf in het bijzonder. Dus Gable's belangrijkste toegevoegde waarde, dat wat we anders doen dan anderen, is code-interpretatie.

Gable is geen gegevenstool. Wij zijn een software engineering tool die gebouwd is voor de complexiteit van data. En we kunnen code interpreteren die uiteindelijk gegevens produceert om erachter te komen wat die code doet.

Dus als ik, laten we zeggen, een gebeurtenis heb die wordt uitgezonden door een front-end systeem, en elke keer dat iemand op een knop klikt, is er code die zegt, hé, op deze knop is geklikt. Ik wil een gebeurtenis genaamd knop geklikt naar een database sturen. En vanuit die database sturen we het naar ons data lake.

En dan sturen we het vanuit ons datameer naar modeltraining voor een of ander AI-systeem. En wat Gable kan doen, is zeggen dat als een of andere software engineer besluit om te veranderen hoe die knopklikgebeurtenis in code is gestructureerd, wat een impact zou hebben op iedereen stroomafwaarts, we kunnen herkennen dat dat is gebeurd tijdens het DevOps-proces.

Dus als een software engineer door GitHub gaat en wijzigingen aanbrengt in zijn code, kun je zeggen: oh, wacht even, voordat je deze wijziging daadwerkelijk aanbrengt, hebben we ontdekt dat er hier iets fout is gegaan.

Veel van die code-interpretatie hebben we opgebouwd met behulp van meer machine learning en statische analysemethoden.

Maar AI, die zeer bedreven is in het herkennen van conventies, zoals veelvoorkomende coderingspatronen, kan heel goed context bieden in waarom mensen code wijzigen of wat hun bedoeling is. Er zijn dus veel coole manieren waarop we AI kunnen toepassen voor ons product in het bijzonder."

V: Als bedrijven gebruik willen maken van AI, zullen ze gegevens nodig hebben. Wat ziet u als de grootste kansen voor bedrijven om hun gegevens te beheren en te ontwikkelen? Hoe kunnen ze daarop inspelen en zich voorbereiden?

Chad Sanderson: "Dus ik denk dat elk bedrijf dat gebruik wil maken van AI met een datastrategie moet komen. En ik denk dat er twee datastrategieën zullen zijn die hyperrelevant zullen zijn voor elk bedrijf.

De eerste is dat op dit moment de grote iteratieve modellen, de LLM's, de publieke LLM's die we allemaal kennen, zoals OpenAIWolk, Gemini, AnthropicZe gebruiken allemaal voornamelijk openbaar beschikbare gegevens, gegevens die je van het internet kunt halen.

En dit heeft zeker nut voor een breed, algemeen model. Maar een van de uitdagingen met deze LLM's is iets dat de contextvensters wordt genoemd, wat betekent dat hoe meer informatie ze hebben om over te redeneren, hoe slechter ze hun werk doen. Dus hoe beperkter de taak die je ze kunt geven met een beperkte hoeveelheid context, hoe effectiever ze zijn.

Het is een beetje als een persoon, toch? Als ik je een boek aan informatie geef en je dan vraag naar een heel specifieke paragraaf op pagina 73, dan zal je vermogen om het te onthouden waarschijnlijk laag zijn. Maar als ik je maar één hoofdstuk geef om te lezen, zul je dat waarschijnlijk veel beter doen.

Dus dat is een van de punten: ik denk dat veel van deze algemene modellen niet zo nuttig zullen zijn voor grote bedrijven. En we zullen steeds kleinere modellen gaan zien die meer contextgedreven zijn. Ze zijn dus gebaseerd op kleinere contexten.

En de manier waarop je fijn afgestemde context van hoge kwaliteit krijgt, is door het verkrijgen van goed afgestemde, geweldige gegevens over dat specifieke, wat dat specifieke ding ook is waar je naar kijkt. En ik denk dat dit de data gaat worden die de concurrerende moat gaat worden voor de meeste bedrijven.

Dus ik denk dat dat een enorme investering zal zijn die veel bedrijven zullen moeten doen. We moeten zoveel mogelijk gegevens van hoge kwaliteit verzamelen als we kunnen, zodat we die in deze modellen kunnen gebruiken en niet de bredere modellen met de grotere contextvensters."

V: Welke invloed zullen zaken als GDPR en CCPA in Californië hebben op de manier waarop mensen of bedrijven omgaan met gegevenskwaliteit en -beveiliging?

Chad Sanderson: "Ik denk dat GDPR en CCPA echt goede voorbeelden zijn van waarom veel bedrijven zich zorgen maken over hoe de regulering van deze generatieve modellen er in de toekomst uitziet.

Zelfs als de Verenigde Staten zeggen: 'Hé, dit is oké', als de EU besluit dat het niet oké is, moet je uiteindelijk deze normen op iedereen toepassen, toch? Het grote probleem met GDPR was dat je niet echt kunt zien of een klant die je website bezoekt uit Europa of de Verenigde Staten komt.

En je kunt zeker geolocatie en dat soort dingen doen. Maar je hebt misschien een Europeaan in de Verenigde Staten die je applicatie gebruikt en GDPR maakt geen onderscheid tussen die persoon en iemand die in Europa woont. Je moet ze op dezelfde manier kunnen behandelen.

En dat betekent effectief dat je alle klanten hetzelfde moet behandelen, want je weet echt niet wie die persoon aan de andere kant is. En dat vereist veel governance, veel interessante technologische innovatie, veel veranderingen in hoe je met marketing en dat soort dingen omgaat. En ik denk dat we waarschijnlijk iets soortgelijks gaan zien met AI wanneer de regelgeving echt begint te komen.

Europa begint er al op aan te dringen. En daarom is het voor veel bedrijven veiliger om hun eigen dingen te doen, toch? Ik heb mijn eigen ommuurde tuin.

Ik gebruik alleen de gegevens die ik verzamel van onze eigen applicaties. En die gegevens gaan niet weg. We volgen klanten niet over het internet.

We kijken gewoon naar de patronen van hoe ze onze diensten gebruiken. Ik denk dat dat een grote rol gaat spelen. Iets anders waarvan ik denk dat het groot gaat worden, zijn dataleveranciers.

Dataleveranciers bestaan dus al heel lang, of data-as-a-service, waarbij je zegt: kijk, ik ga je actuele informatie over het weer geven, en je betaalt me voor toegang tot die informatie. En ik ben degene die al de hindernissen heeft genomen om het veilig, toegankelijk en betrouwbaar te maken. En ik zorg ervoor dat de kwaliteit van de gegevens hoog is.

Dat gebeurt nu al. Maar ik denk dat dit de komende vijf tot tien jaar zal exploderen als je gegevens nodig hebt die je niet kunt verzamelen via je eigen interne applicaties. En ik denk dat in die wereld het concept van deze contracten nog belangrijker zal worden.

En dat gaat gepaard met een letterlijk contract. Als ik betaal om gegevens er op een bepaalde manier uit te laten zien, dan heb ik daar bepaalde verwachtingen van.

Ik verwacht niet dat die gegevens plotseling zullen veranderen van de laatste keer dat je ze aan mij gaf tot vandaag, want nu kunnen ze echt een impact hebben op mijn machine learning-model, dat een impact heeft op mijn bottom line.

We werken dagelijks met AI-tools, maar we denken bijna nooit na over de gegevens waarop deze modellen gebaseerd zijn. Datacuration en -beheer worden cruciaal, vooral voor bedrijven die AI intern inzetten."

Datacuration, kwaliteitsbeheer en -controle zullen steeds belangrijker worden naarmate bedrijven producten maken die afhankelijk zijn van consistent goede data.

Als je meer wilt weten over gegevenscontracten en hoe je het beste uit de gegevens van je bedrijf kunt halen, kun je contact opnemen met Chad Sanderson of lees meer op Gable.ai.

Doe mee met de toekomst


SCHRIJF JE VANDAAG NOG IN

Duidelijk, beknopt, uitgebreid. Krijg grip op AI-ontwikkelingen met DailyAI

Eugene van der Watt

Eugene heeft een achtergrond in elektrotechniek en houdt van alles wat met techniek te maken heeft. Als hij even pauzeert van het consumeren van AI-nieuws, kun je hem aan de snookertafel vinden.

×

GRATIS PDF EXCLUSIEF
Blijf voorop met DailyAI

Meld je aan voor onze wekelijkse nieuwsbrief en ontvang exclusieve toegang tot DailyAI's nieuwste eBook: 'Mastering AI Tools: Your 2024 Guide to Enhanced Productivity'.

* Door u aan te melden voor onze nieuwsbrief accepteert u onze Privacybeleid en onze Algemene voorwaarden