Интервью: Чад Сандерсон, генеральный директор платформы для заключения контрактов на основе данных Gable.ai

Май 9, 2024

  • Чад Сандерсон, генеральный директор и основатель компании Gable, помогает организациям повысить качество данных в масштабе
  • Сандерсон утверждает, что контракты на передачу данных могут помочь компаниям безопасно управлять динамическими корпоративными данными
  • Владение и управление данными имеет решающее значение для успешного создания продуктов данных ИИ

Когда компании внедряют корпоративные инструменты искусственного интеллекта, они часто обнаруживают, что их озеро данных может быть глубоким, но беспорядочным. Даже если они начинают с тщательно подобранных данных, неэффективное управление изменениями данных может привести к серьезным последствиям.

Чад Сандерсон - генеральный директор и основатель компании Gable.ai, где он помогает организациям повысить качество данных в масштабе.

Мне удалось поговорить с ним о важности качества данных и о том, как контракты на данные могут обеспечить целостность приложений, построенных на больших объемах данных.

Чад Сандерсон. Источник: Предоставлено

В: Вы по образованию журналист. Не хотите ли рассказать нам, как вы оказались в сфере данных и увлеклись наукой о данных и качеством данных?

Чад Сандерсон: "Наукой о данных я начал заниматься как журналист, потому что у меня был свой сайт и мне нужно было настроить веб-аналитику. Я выучил все GA4, начал проводить A-B-тесты - самые основы науки о данных. А потом мне это так понравилось, что я стал работать на полную ставку, обучился статистике и в итоге перешел на работу в компанию Oracle в качестве аналитика и специалиста по изучению данных.

Затем я начал управлять командами в области данных. Сначала это были команды по проведению экспериментов и аналитике. Затем я стал больше заниматься проектированием данных и, в конечном итоге, инфраструктурой, платформами инфраструктуры данных.

Я работал над платформой искусственного интеллекта Microsoft. Затем я также возглавлял платформу искусственного интеллекта и данных в компании Convoy, занимающейся грузоперевозками на поздних стадиях".

Вопрос: Недавно вы выступали на MDS Fest с докладом о контрактах с данными и о том, как это позволяет компаниям осуществлять федеративное управление данными. Не хотели бы вы вкратце объяснить, о чем идет речь?

Чад Сандерсон: "Контракты на данные - это своего рода механизм реализации объединенного управления данными и объединенного управления данными.

По сути, в старом мире, то есть в унаследованном мире on-prem, 20 лет назад у вас были архитекторы данных, которые создавали всю экосистему данных в компании, начиная с транзакционных баз данных, систем ETL, всех различных механизмов, которые преобразовывали данные и подготавливали их к анализу, науке о данных и искусственному интеллекту.

Все эти данные предоставлялись ученым из централизованной группы. Вы можете думать об этом так же, как библиотекарь управляет библиотекой.

Они следят за тем, какие книги поступают, какие выходят, как организованы книги, и это очень облегчает исследователям поиск информации, необходимой для их проектов.

Но что произошло 15 лет спустя, 20 лет спустя, так это то, что мы перешли к облачным технологиям и инженерам-программистам, а программное обеспечение, как говорит Марк Андреессен, съело мир, и каждый бизнес решил стать бизнесом программного обеспечения. Способ, которым компании управляли программным бизнесом, заключался в том, чтобы позволить инженерным командам двигаться так быстро, как они только могут, чтобы создавать приложения суперитеративным, экспериментальным способом.

Это означало, что все данные, которые генерировали эти приложения, больше не зависели от того, как архитектор данных планировал структуру и как она была разработана и организована. Вы просто брали всю эту информацию и сбрасывали ее в одно место под названием "озеро данных". И озеро данных было очень беспорядочным.

Ответственность за то, чтобы извлечь какой-то смысл из всей этой болотистой информации, легла на инженера по данным. Таким образом, можно жить в двух мирах: децентрализованный, полностью федеративный уровень приложений и очень, очень централизованный уровень данных, а команды инженеров по обработке данных делают все возможное, чтобы извлечь из этого хоть какой-то смысл.

Контракт с данными - это механизм, позволяющий командам, занимающимся обработкой данных и проектированием данных, сказать: "Эй, мы начинаем использовать эти данные определенным образом".

Мы возлагаем на них определенные надежды. А это значит, что инженеры, создающие данные, берут на себя ответственность за них так же, как архитектор данных брал на себя ответственность за всю систему годом ранее. И именно это позволяет масштабировать управление, масштабировать качество.

Если этого нет, то возникает очень хаотичная ситуация".

В: И это ситуация типа "мусор в мусор". Если изменить что-то совсем незначительное в данных, это может иметь серьезные последствия для всего остального мира.

Чад Сандерсон: "Да, именно так. И есть множество компаний, которые получили действительно печальные последствия от своих моделей ИИ просто из-за относительно небольших изменений, которые разработчики приложений не считают большой проблемой.

Например, допустим, вы собираете информацию о дне рождения человека, чтобы автоматически отправить ему очень приятное сообщение.

Возможно, вы храните информацию о дне рождения в виде трех столбцов с месяцем, годом и датой рождения. И вы берете всю эту информацию, а затем можете делать с ней разные причудливые вещи. Но если инженер скажет: "Знаете что, разбивать это на три разных столбца - глупо".

Я просто хочу иметь один столбец для даты. Это нормально. И они так и поступят, потому что это упростит работу с приложением.

Но все, кто находится ниже по течению и использует эти данные, ожидают получить три колонки. Поэтому если завтра они получат только одну, а две, которые они использовали, исчезнут, это разрушит все, что они построили.

Подобные вещи постоянно происходят в компаниях".

В: Вы являетесь генеральным директором компании под названием Gable. С какими основными проблемами сталкиваются компании, которые вы надеетесь решить? Как ваша платформа решает некоторые из этих проблем?

Чад Сандерсон: "Самая большая проблема, которую мы слышали от большинства компаний, продвигающихся в области ИИ и ОД, по крайней мере со стороны данных, заключается в двух вещах. Первая - это право собственности. Если я создаю системы искусственного интеллекта, строю модели, мне нужно, чтобы кто-то взял на себя ответственность за данные, которые я использую, и убедился, что к этим данным относятся как к API.

Если вы занимаетесь разработкой программного обеспечения и полагаетесь на чужое приложение, вы делаете это через интерфейс. Этот интерфейс хорошо документирован. Он имеет очень четкие ожидания.

Существуют соглашения об уровне обслуживания. Ожидается, что он будет работать определенное количество времени. Если есть ошибки, то кто-то идет и исправляет их.

Именно по этой причине вы можете чувствовать себя комфортно, принимая зависимость от приложений, которые созданы не только вами. И в данных мы именно это и делаем, когда извлекаем данные из чужого набора данных, например, из базы данных. А затем мы строим модель поверх нее.

Мы берем на себя зависимость от интерфейса, но сегодня этот интерфейс не имеет особой ответственности. Нет реального SLA. Нет большого количества документации.

Он может измениться в любой момент. И если бы API работали именно так, то вся наша экосистема интернета погрузилась бы в хаос. Ничего бы не работало.

Поэтому многие компании и команды разработчиков данных сейчас очень хотят иметь возможность быть уверенными в том, что данные, которые они используют, завтра будут теми же самыми, что и вчера. Это одна часть. И один из важнейших результатов этого - качество данных.

Мы заботимся о том, чтобы данные соответствовали нашим ожиданиям. Допустим, я работаю с данными о перевозках и получаю информацию о расстоянии доставки грузов. Я всегда буду ожидать, что функция расстояния доставки будет означать то, что я ожидаю, а не вдруг станет означать что-то другое, верно?

Если я скажу, что это расстояние доставки в милях, то завтра я не хочу, чтобы оно вдруг стало означать километры, потому что ИИ не будет знать, что оно изменилось с миль на километры. У него нет контекста, чтобы понять это.

Gable стремится к тому, чтобы все эти четкие ожидания и SLA были на месте, чтобы все данные, которые команды используют для ИИ, четко принадлежали им, и чтобы вся организация понимала, как разные люди в компании используют эти данные и где на самом деле нужна нежная любовь и забота".

Вопрос: Много внимания уделяется обеспечению качества данных для работы ИИ, но позволяет ли ИИ делать это лучше?

Чад Сандерсон: "ИИ - это потрясающе, честно говоря. Я думаю, что сейчас мы находимся в середине цикла ажиотажа, определенно, 100%.

Поэтому люди будут делать нелепые заявления о том, что может сделать ИИ. Но я думаю, что если быть реалистом и сосредоточиться на том, что ИИ может сделать прямо сейчас, то уже сейчас он может принести много пользы, в частности, нашей компании. Основное преимущество Gable, то, что мы делаем не так, как все остальные, - это интерпретация кода.

Gable - это не инструмент для работы с данными. Мы - инструмент для разработки программного обеспечения, созданный для работы со сложными данными. И мы можем интерпретировать код, который в конечном итоге производит данные, чтобы понять, что этот код делает.

Так что если у меня есть, скажем, событие, которое испускается внешней системой, и каждый раз, когда кто-то нажимает на кнопку, есть код, который говорит: "Эй, эта кнопка нажата". Я хочу отправить событие под названием "Кнопка нажата" в базу данных. А затем из этой базы данных мы отправим его в наше озеро данных.

А затем из нашего озера данных мы отправляем его на обучение модели для какой-нибудь системы искусственного интеллекта. И что может сделать Gable, так это сказать, что если какой-то инженер-программист решит изменить структуру события нажатия кнопки в коде, что повлияет на всех последующих пользователей, мы сможем распознать, что это произошло в процессе DevOps.

Поэтому, когда инженер-программист просматривает GitHub и вносит изменения в свой код, вы можете сказать: "Подождите секунду, прежде чем вы внесете это изменение, мы обнаружили, что что-то здесь пошло не так".

Для интерпретации кода мы используем методы машинного обучения и статического анализа.

Но ИИ, который очень хорошо умеет распознавать условности, например общие шаблоны кодирования, отлично справляется с задачей создания контекста, позволяющего понять, почему люди вносят изменения в код или каковы их намерения. Таким образом, существует множество интересных способов применения искусственного интеллекта, в частности, для нашего продукта".

В: Если компании хотят использовать возможности ИИ, им понадобятся данные. Какие, на ваш взгляд, самые большие возможности открываются перед компаниями в плане управления и развития своих данных? Как они могут воспользоваться этими возможностями и подготовиться к ним?

Чад Сандерсон: "Я думаю, что каждая компания, которая хочет использовать ИИ, должна разработать стратегию работы с данными. И я думаю, что будет две стратегии данных, которые будут гиперактуальны для каждого бизнеса.

Первая заключается в том, что сейчас большие итеративные модели, LLM, публичные LLM, о которых мы все знаем, такие как OpenAIОблако, Gemini, AnthropicВсе они используют в основном общедоступные данные, которые можно получить из Интернета.

И это определенно полезно для широкой, общей модели. Но одна из проблем этих LLM - так называемые контекстные окна, то есть чем больше у них информации для рассуждений, тем хуже они справляются со своей задачей. Поэтому чем более узкую задачу вы можете поставить перед ними с ограниченным количеством контекста, тем эффективнее они работают.

Это похоже на человека, верно? Если я дам вам целую книгу информации, а потом спрошу об очень конкретном абзаце на странице 73, ваша способность вспомнить его, скорее всего, будет низкой. Но если я дам вам прочитать только одну главу, вы, скорее всего, справитесь с этой задачей гораздо лучше.

Поэтому я считаю, что многие из этих общих моделей будут не так полезны для крупных компаний. И мы начнем видеть все более мелкие модели, которые в большей степени ориентированы на контекст. То есть они основаны на небольших контекстах.

А способ получить тонко настроенный, высококачественный контекст - это получить высоконастроенные, отличные данные о конкретной вещи, которую вы рассматриваете. И я думаю, что именно данные станут конкурентным рвом для большинства компаний.

Поэтому я думаю, что это будет огромной инвестицией, которую придется сделать многим компаниям. Нам нужно собрать как можно больше высококачественных данных, чтобы мы могли использовать их в этих моделях, а не использовать более широкие модели с большими контекстными окнами".

Вопрос: Как такие вещи, как GDPR и CCPA в Калифорнии, повлияют на то, как люди или компании относятся к качеству и безопасности данных?

Чад Сандерсон: "Я думаю, что GDPR и CCPA - это очень хорошие примеры того, почему многие компании обеспокоены тем, как будет выглядеть регулирование этих генеративных моделей в будущем.

Даже если Соединенные Штаты скажут: "Эй, это нормально", а ЕС решит, что это не так, в конечном итоге вы должны применять эти стандарты ко всем, верно? Главная проблема GDPR заключалась в том, что вы не можете определить, откуда заходит на ваш сайт клиент - из Европы или США.

Конечно, вы можете использовать геолокацию и тому подобное. Но у вас может быть европеец в США, который использует ваше приложение, и GDPR не делает различий между этим человеком и тем, кто живет в Европе. Вы должны иметь возможность обращаться с ними одинаково.

А это значит, что ко всем клиентам нужно относиться одинаково, потому что вы не знаете, кто этот человек на другой стороне. А это требует много управления, много очень интересных технологических инноваций, много изменений в том, как вы занимаетесь маркетингом и тому подобными вещами. И я думаю, что мы, вероятно, увидим нечто подобное с искусственным интеллектом, когда начнет появляться регулирование.

Европа уже начинает настойчиво добиваться этого. Вот почему многим компаниям безопаснее заниматься своими делами самостоятельно, верно? У меня есть свой собственный сад.

Я использую только те данные, которые собираю из наших собственных приложений. И эти данные никуда не уходят. Мы не следим за клиентами по всему интернету.

Мы просто смотрим на то, как они пользуются нашими услугами. Я думаю, что это станет очень важным. Еще одна вещь, которая, на мой взгляд, станет важной, - это поставщики данных.

Так что поставщики данных существуют уже очень давно, или данные как услуга, когда вы говорите: "Послушайте, я собираюсь предоставить вам самую свежую информацию о погоде, а вы платите мне за доступ к этой информации. И это я уже прошел через все трудности, чтобы сделать ее безопасной, доступной и надежной. И я слежу за тем, чтобы качество данных было высоким.

Это уже происходит. Но я думаю, что в ближайшие пять-десять лет эта тенденция возрастет, если вам понадобятся данные, которые вы не можете получить из своих собственных внутренних приложений. И я думаю, что в этом мире концепция таких контрактов станет еще более важной.

И это будет привязано к буквальному контракту. Если я плачу за то, чтобы данные выглядели определенным образом, значит, у меня есть определенные ожидания.

Я не ожидаю, что эти данные внезапно изменятся с того момента, как вы передали их мне в прошлый раз, до сегодняшнего дня, потому что теперь они действительно могут повлиять на мою модель машинного обучения, которая влияет на итоговый результат.

Мы ежедневно взаимодействуем с инструментами ИИ, но почти никогда не задумываемся о данных, на которые опираются эти модели. Курирование и управление данными будет иметь решающее значение, особенно для компаний, внедряющих ИИ внутри компании".

Контроль, управление и управление качеством данных будут становиться все более важными по мере того, как компании будут создавать продукты, зависящие от неизменно хороших данных.

Если вы хотите узнать больше о контрактах на предоставление данных и о том, как максимально эффективно использовать данные вашей компании, вы можете связаться с Чад Сандерсон или узнайте больше на сайте Gable.ai.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения