Cuando las empresas despliegan herramientas de IA empresarial, a menudo se encuentran con que su lago de datos puede ser profundo, pero está desordenado. Incluso si empiezan con datos cuidadosamente seleccionados, una mala gestión de los cambios en los datos puede tener graves consecuencias.
Chad Sanderson es el CEO y fundador de Gable.ai, donde ayuda a las organizaciones a mejorar la calidad de los datos a escala.
Pude hablar con él sobre la importancia de la calidad de los datos y cómo los contratos de datos pueden garantizar que las aplicaciones creadas a partir de grandes cantidades de datos mantengan su integridad.
P: Usted es periodista. Quieres contarnos cómo acabaste en el mundo de los datos y cómo te apasionan la ciencia y la calidad de los datos?
Chad Sanderson: "La ciencia de datos fue algo que empecé a practicar como periodista porque dirigía mi propio sitio web y necesitaba configurar la analítica web. Aprendí todo el GA4, empecé a hacer pruebas A-B, ciencia de datos muy básica. Y luego me gustó tanto que lo convertí en mi trabajo a tiempo completo, aprendí estadística por mi cuenta y acabé trabajando para Oracle como analista y científico de datos.
Y luego empecé a dirigir equipos en el espacio de datos. Primero, más en equipos de experimentación y análisis. Luego empecé a dedicarme más a la ingeniería de datos y, por último, a la infraestructura, a las plataformas de infraestructura de datos.
Así que trabajé en la plataforma de Inteligencia Artificial de Microsoft. Y luego también dirigí la plataforma de IA y datos en una empresa tecnológica de transporte de mercancías en fase avanzada llamada Convoy".
P: Recientemente habló en el MDS Fest sobre los contratos de datos y cómo permiten a las empresas tener esta gobernanza de datos federada. Podría explicarnos brevemente en qué consiste?
Chad Sanderson: "Los contratos de datos son una especie de mecanismo de aplicación de la gobernanza federada de datos y la gestión federada de datos.
Básicamente, en el mundo antiguo, es decir, en el mundo heredado, on-prem, hace 20 años, había arquitectos de datos que construían todo un ecosistema de datos en una empresa, empezando por las bases de datos transaccionales, los sistemas ETL, todos los diversos mecanismos que transforman los datos y básicamente los preparan para el análisis y la ciencia de datos y la IA.
Y todos esos datos se proporcionaban a los científicos desde un equipo centralizado. Se puede pensar de la misma manera que un bibliotecario opera una biblioteca.
Se aseguran de qué libros entran, qué libros salen, cómo están organizados los libros, y eso facilita mucho a los investigadores encontrar la información que necesitan para sus proyectos.
Pero lo que ocurrió 15 años después, 20 años después, es que pasamos a la nube y a los ingenieros de software, y el software se comió el mundo, como dice Mark Andreessen, y todas las empresas decidieron convertirse en empresas de software. La forma en que las empresas estaban ejecutando las empresas de software era dejando que los equipos de ingeniería se movieran tan rápido como pudieran para construir aplicaciones de una manera súper iterativa y experimental.
Eso significaba que todos los datos que generaban estas aplicaciones ya no estaban sujetos a la planificación de la estructura y el diseño y la organización por parte del arquitecto de datos. Usted acaba de tomar toda esta información y la arrojó en un lugar llamado el lago de datos. Y el lago de datos estaba muy desordenado.
La responsabilidad de dar sentido a toda esta información pantanosa recayó en el ingeniero de datos. Y así se vive un poco en ambos mundos, donde tienes la capa de aplicación descentralizada y totalmente federada y una capa de datos muy, muy centralizada y equipos de ingeniería de datos haciendo todo lo posible para darle algún sentido.
El contrato de datos es un mecanismo para que los equipos de datos posteriores y los equipos de ingeniería de datos digan: oye, vamos a empezar a utilizar estos datos de una manera determinada.
Tenemos ciertas expectativas al respecto. Y eso significa que los ingenieros que crean los datos se apropian de ellos del mismo modo que un arquitecto de datos se apropiaría de todo el sistema un año antes. Y eso es lo que realmente permite escalar la gobernanza, escalar la calidad.
Si no es así, la situación se vuelve caótica".
P: Es el tipo de situación de "basura que entra, basura que sale". Si cambias algo muy pequeño en tus datos, eso puede tener profundas ramificaciones aguas abajo.
Chad Sanderson: "Sí, eso es exactamente cierto. Y hay muchas empresas que han sufrido impactos realmente desafortunados de sus modelos de IA solo por cambios relativamente pequeños que los desarrolladores de aplicaciones no consideran un gran problema.
Por ejemplo, digamos que estás recopilando el cumpleaños de alguien porque quieres enviarle automáticamente un mensaje de cumpleaños muy bonito.
Es posible que almacenes esa información de cumpleaños en tres columnas con el mes de cumpleaños, el año de cumpleaños y la fecha de cumpleaños. Y coges toda esa información y puedes hacer cosas extravagantes con ella. Pero si el ingeniero dice, sabes qué, dividir esto en tres columnas diferentes es estúpido.
Sólo quiero tener una columna para la fecha. Eso está bien. Y van a hacer eso porque hace que su aplicación sea más fácil de usar.
Pero cualquiera que esté utilizando esos datos espera tres columnas. Así que si mañana sólo reciben una, y dos que estaban utilizando se han ido, va a volar todo lo que habían construido.
Es el tipo de cosas que ocurren continuamente en las empresas".
P: Usted es el Director General de una empresa llamada Gable. ¿Cuáles son algunos de los principales retos a los que se enfrentan las empresas y que espera resolver? ¿Cómo aborda su plataforma algunos de esos problemas?
Chad Sanderson: "Así que el mayor desafío que hemos escuchado de la mayoría de las empresas que se mueven en el espacio de IA y ML, al menos desde el lado de los datos, es realmente dos cosas. La primera es la propiedad. La propiedad significa que si soy alguien que está creando sistemas de IA, que estoy creando los modelos, necesito que alguien se haga cargo de los datos que estoy utilizando y se asegure de que esos datos se tratan como una API.
Si eres ingeniero de software y dependes de una aplicación ajena, lo haces a través de una interfaz. Esa interfaz está bien documentada. Tiene expectativas muy claras.
Hay acuerdos de nivel de servicio. Se espera que funcione durante cierto tiempo. Si hay fallos, alguien va y los arregla.
Y esta es la razón por la que usted puede sentirse cómodo tomando una dependencia de las aplicaciones que no son sólo la cosa que usted construyó. Y en los datos, eso es lo que estamos haciendo cuando estamos extrayendo datos del conjunto de datos de otra persona, como una base de datos, por ejemplo. Y luego estamos construyendo un modelo en la parte superior de la misma.
Estamos tomando una dependencia de una interfaz, pero hoy en día no hay mucha propiedad sobre esa interfaz. No hay un verdadero SLA. No hay mucha documentación.
Puede cambiar en cualquier momento. Y si así es como funcionan las API, todo nuestro ecosistema de Internet sería un caos. Nada funcionaría.
Así que esto es lo que muchas empresas y equipos de datos están deseando en este momento, la capacidad de confiar en que los datos que están utilizando van a ser los mismos datos mañana que ayer. Esa es una parte. Y luego uno de los resultados realmente esenciales de eso es la calidad de los datos.
Nos preocupamos por asegurarnos de que los datos coinciden con nuestras expectativas. Digamos que estoy trabajando con datos de transporte y estoy consumiendo información sobre distancias de transporte de mercancías. Siempre espero que la distancia de envío signifique lo que yo espero que signifique y no que de repente signifique otra cosa, ¿verdad?
Si digo que es una distancia de envío en millas, mañana no quiero que de repente signifique kilómetros porque la IA no va a saber que ha cambiado de millas a kilómetros. No tiene el contexto para entenderlo.
De lo que se trata en Gable es de asegurarse de que existen esas expectativas y acuerdos de nivel de servicio muy claros, de que todos los datos que los equipos están utilizando para la IA son claramente de su propiedad, y de que toda la organización entiende cómo las diferentes personas dentro de la empresa están utilizando los datos y dónde se necesita realmente ese tierno amor y cuidado."
P: Se hace mucho hincapié en garantizar la calidad de los datos para permitir la IA, pero ¿la IA permite hacerlo mejor?
Chad Sanderson: "La IA es increíble, francamente. Creo que estamos en medio de un ciclo de hype, definitivamente, 100%.
Así que la gente va a hacer algunas afirmaciones sobre lo que la IA puede hacer que son extravagantes. Pero creo que si somos realistas y nos centramos en lo que la IA puede hacer ahora mismo, ya hay mucho valor añadido para nuestra empresa en particular. El principal valor añadido de Gable, lo que hacemos de forma diferente a los demás, es la interpretación de códigos.
Gable no es una herramienta de datos. Somos una herramienta de ingeniería de software construida para las complejidades de los datos. Y podemos interpretar el código que en última instancia produce datos para averiguar qué está haciendo ese código.
Así que si tengo, digamos, un evento que está siendo emitido desde un sistema front-end, y cada vez que alguien hace clic en un botón, hay código que dice, hey, este botón se hace clic. Quiero enviar un evento llamado botón pulsado a una base de datos. Y luego de esa base de datos, vamos a enviarlo a nuestro lago de datos.
Y luego, desde nuestro lago de datos, lo enviamos al entrenamiento de modelos para algún sistema de IA. Y lo que Gable puede hacer es decir que, si algún ingeniero de software decide cambiar la estructura de ese evento de clic en el botón en el código, lo que tendría un impacto en todo el mundo aguas abajo, podemos reconocer que eso ha sucedido durante el proceso DevOps.
Así que cuando un ingeniero de software está pasando por GitHub y haciendo cambios en su código, puedes decir, oh, espera un segundo, antes de que realmente hagas este cambio, hemos detectado que algo ha ido mal aquí.
Hemos desarrollado gran parte de esa interpretación del código utilizando más métodos basados en el aprendizaje automático y el análisis estático.
Pero la IA, que es muy hábil reconociendo convenciones, como patrones comunes de codificación, hace un trabajo realmente bueno proporcionando contexto sobre por qué la gente está haciendo cambios en el código o cuál es su intención. Así que hay muchas formas interesantes de aplicar la IA a nuestro producto en particular".
P: Si las empresas quieren aprovechar la IA van a necesitar datos. ¿Cuáles cree que son las mayores oportunidades para que las empresas gestionen y desarrollen sus datos? ¿Cómo pueden aprovecharlas y prepararse para ello?
Chad Sanderson: "Así que creo que todas las empresas que quieran aprovechar la IA necesitan elaborar una estrategia de datos. Y creo que habrá dos estrategias de datos que serán hiperrelevantes para todas las empresas.
La primera es que ahora mismo, los grandes modelos iterativos, los LLM, los LLM de cara al público que todos conocemos, como OpenAINube, Gemini, AnthropicTodos ellos utilizan principalmente datos públicos, datos que se pueden obtener en Internet.
Y esto sin duda tiene utilidad para un modelo amplio y general. Pero uno de los retos con estos LLMs es algo llamado ventanas de contexto, lo que significa que cuanta más información tienen para razonar, peor trabajo hacen. Así que cuanto más estrecha sea la tarea que se les puede proporcionar con una cantidad limitada de contexto, más eficaces son.
Es como una persona, ¿verdad? Si te doy la información de un libro y luego te pregunto por un párrafo muy concreto de la página 73, es probable que tu capacidad para recordarlo sea baja. Pero si sólo te doy un capítulo para leer, es probable que lo hagas mucho mejor.
Así que eso es una especie de punto es como muchos de estos modelos generales, creo que no va a ser tan útil para las grandes empresas. Y vamos a empezar a ver modelos más y más pequeños que están más orientados al contexto. Así que se basan en contextos más pequeños.
Y la forma de obtener un contexto preciso y de alta calidad es mediante la obtención de datos precisos y de gran calidad sobre ese tema específico, sea cual sea el tema específico que se esté analizando. Y creo que esto se va a convertir en los datos se va a convertir en el foso competitivo para la mayoría de las empresas.
Así que creo que va a ser una inversión enorme que muchas empresas van a tener que hacer. Tenemos que recopilar tantos datos de alta calidad como podamos para poder introducirlos en estos modelos y no utilizar los modelos más amplios con las ventanas de contexto más grandes."
P: ¿Cómo van a afectar cosas como el GDPR y la CCPA en California a la forma en que las personas o las empresas gestionan la calidad y la seguridad de los datos?
Chad Sanderson: "Creo que el GDPR y la CCPA son realmente buenos ejemplos de por qué muchas empresas están preocupadas por cómo será la regulación de estos modelos generativos en el futuro.
Incluso si Estados Unidos dice: "Oye, esto está bien", si la UE decide que no, en última instancia, tienes que aplicar estas normas a todo el mundo, ¿no? El gran problema con el GDPR es que no puedes saber si un cliente que accede a tu sitio web procede de Europa o de Estados Unidos.
Y desde luego, puedes hacer geolocalización y cosas así. Pero puede que haya un europeo en Estados Unidos que utilice tu aplicación y el GDPR no discrimina entre esa persona y alguien que vive en Europa. Tienes que tener la capacidad de tratarlos de la misma manera.
Y eso significa, efectivamente, que hay que tratar a todos los clientes por igual, porque realmente no se sabe quién es esa persona que está al otro lado. Y eso requiere mucha gobernanza, mucha innovación tecnológica muy interesante, muchos cambios en la forma de gestionar el marketing y cosas por el estilo. Y creo que probablemente vamos a ver algo similar con la IA cuando la regulación realmente comience a salir.
Europa ya está empezando a presionar al respecto. Y por eso es más seguro para muchas empresas hacer sus propias cosas, ¿no? Tengo mi propio jardín amurallado.
Sólo utilizo los datos que obtengo de nuestras propias aplicaciones. Y esos datos no se van. No estamos siguiendo a los clientes por internet.
Nos fijamos en las pautas de uso de nuestros servicios. Creo que esto va a crecer mucho. La otra cosa que creo que va a ser grande son los proveedores de datos.
Los vendedores de datos existen desde hace mucho tiempo, o los datos como servicio, en los que se dice: mira, voy a proporcionarte información actualizada al minuto sobre el tiempo, y tú me pagas por acceder a esa información. Y yo soy el que ya ha superado los obstáculos para hacerla segura, accesible y fiable. Y me aseguro de que la calidad de los datos sea alta.
Eso ya está ocurriendo. Pero creo que eso va a explotar en los próximos cinco a diez años si necesitas datos que no puedes recoger de tus propias aplicaciones internas. Y creo que en ese mundo, el concepto de estos contratos va a ser aún más importante.
Y eso va a ir unido a un contrato literal. Si pago para que los datos tengan un aspecto determinado, tengo ciertas expectativas.
No espero que esos datos cambien de repente de la última vez que me los diste a hoy, porque ahora sí que pueden repercutir en mi modelo de aprendizaje automático, que repercute en mi cuenta de resultados.
Interactuamos a diario con herramientas de IA, pero casi nunca pensamos en los datos en los que se basan estos modelos. La curación y gestión de datos va a ser crucial, especialmente para las empresas que desplieguen IA internamente."
La curación de datos, la gestión de la calidad y el control van a ser cada vez más cruciales a medida que las empresas creen productos que dependan de datos siempre buenos.
Si quiere saber más sobre los contratos de datos y cómo sacar el máximo partido a los datos de su empresa, puede ponerse en contacto con Chad Sanderson u obtenga más información en Gable.ai.