От крупных технологических компаний до стартапов, производители приложений искусственного интеллекта активно прибегают к лицензированию электронных книг, изображений, видео, аудио и других данных у брокеров информации. Shutterstock, например, заключила соглашения с Meta, Google, Amazon и Apple на поставку миллионов изображений для обучения моделей, а OpenAI сотрудничает с несколькими новостными организациями для обучения своих моделей на архивах новостей.
Во многих случаях создатели и владельцы данных не отмечают, как их информация переходит от рук к рукам, часто без их согласия или даже осведомлённости об этом. Однако стартап под названием Vana нацелен на изменение этой ситуации.
Анна Казлаускас и Арт Абал в 2021 году объединились, чтобы основать Vana. Казлаускас, выпускница Массачусетского технологического института с образованием в области информатики и экономики, ранее работала над запуском финтех-компании, в то время как Абал, имеющий корпоративное юридическое образование, начинал свою карьеру в юридической сфере, а затем работал над поиском источников воздействия в компании по аннотированию данных Appen.
Вместе они создали платформу Vana, которая позволяет пользователям «объединять» свои данные, такие как чаты, аудиозаписи и фотографии, в наборы данных. Эти данные затем могут быть использованы для обучения генеративных моделей. В дополнение к этому, они стремятся создать более персонализированный опыт для пользователей, включая ежедневные мотивационные голосовые сообщения, основанные на их целях, а также приложения для создания «произведений искусства», учитывающее стилевые предпочтения пользователя.
Vana представляет свою платформу и API разработчикам следующим образом: «API Vana объединяет межплатформенные персональные данные пользователей, чтобы вы могли персонализировать своё приложение. Приложение получает мгновенный доступ к персонализированной модели искусственного интеллекта пользователя или базовым данным, что упрощает адаптацию и устраняет проблемы с вычислительными затратами. Мы считаем, что пользователи должны иметь возможность переносить свои личные данные из “закрытых садов”, таких как Instagram, Facebook и Google, в ваше приложение, поэтому вы можете создать потрясающий персонализированный опыт с самого первого взаимодействия пользователя с вашим продуктом».
Процесс создания учётной записи в Vana простой. После подтверждения адреса электронной почты пользователь может прикрепить данные к цифровому аватару (такие как селфи, описание и голосовые записи) и ознакомиться с приложениями, созданными с использованием платформы и наборов данных Vana. Приложения варьируются от чат-ботов в стиле ChatGPT и интерактивных сборников рассказов до генератора профилей Hinge.
Однако возникает вопрос: почему в век растущей осведомлённости о конфиденциальности данных и угроз от программ-вымогателей кто-то может быть готов предоставить свою личную информацию анонимному стартапу, особенно такому, который финансируется венчурным капиталом?
На сегодняшний день Vana собрала $20 000 000 от Paradigm, Polychain Capital и других инвесторов и делает упор на обеспечение конфиденциальности данных и доверия своим пользователям, обещая надёжное и этичное обращение с их информацией.
Анна Казлаускас подчеркнула, что основной принцип платформы заключается в возрождении контроля пользователями над собственными данными. Пользователи Vana могут самостоятельно размещать свои данные, а не хранить их на серверах третьих лиц, имея возможность контролировать, как и когда данные передаются приложениям и разработчикам. Казлаускас утверждает, что поскольку Vana взимает плату в виде ежемесячной подписки (начиная с $3,99) и комиссии за «транзакцию данных» у разработчиков (например, за передачу наборов данных для обучения моделей ИИ), у компании нет стимула использовать пользователей и их личные данные неэтично.
Хотя Vana на данный момент не продаёт данные пользователей компаниям для обучения генеративным моделям ИИ, она стремится к тому, чтобы пользователи могли делать это самостоятельно, начиная с их Reddit-сообщений.
В текущем месяце Vana запустила Reddit Data DAO — программу, объединяющую данные Reddit нескольких пользователей (включая историю их публикаций и «карму») и предоставляющую им возможность совместно решать, как использовать объединённые данные. После запроса и загрузки своих данных в DAO через учётную запись Reddit, пользователи имеют возможность голосовать вместе с другими членами DAO по решениям о лицензировании этих данных компаниям в области генеративного искусственного интеллекта для получения общей прибыли. Это своего рода ответ на недавние шаги Reddit по монетизации данных на своей платформе.
Reddit ранее открыто предоставлял доступ к публичным данным для обучения генеративного ИИ. Однако изменение политики компании перед IPO привело к коммерциализации данных. С момента изменения политики Reddit получил более $203 000 000 в виде лицензионных сборов от компаний, включая Google.
«Главная задача DAO заключается в избавлении пользовательских данных от главных платформ, стремящихся их накопить и монетизировать. Этот проект — часть нашего стремления помочь пользователям объединить свои данные в собственные наборы для обучения ИИ-моделей», — отмечает Казлаускас.
Reddit, не имеющий официального партнёрства с Vana, выразил недовольство DAO. Платформа заблокировала сабреддит Vana, посвящённый обсуждению DAO, а представитель Reddit обвинил Vana в «эксплуатации» их системы экспорта данных, созданной в соответствии с правилами конфиденциальности данных, такими как GDPR и Калифорнийский закон о конфиденциальности потребителей.
Представитель Reddit подчеркнул, что механизмы обработки данных позволяют устанавливать ограничения на передачу общедоступной информации организациям, и что Reddit не передаёт закрытые персональные данные коммерческим предприятиям. При запросе пользователями экспорта их данных, Reddit предоставляет закрытые персональные данные в соответствии с действующим законодательством. Прямое партнёрство между Reddit и проверенными организациями с ясными условиями и ответственностью имеет ключевое значение для предотвращения неправомерного использования и злоупотребления данными.
Анна Казлаускас предполагает, что рост DAO может влиять на сумму, которую Reddit может взимать за данные. На данный момент в DAO насчитывается чуть более 141 000 членов, что составляет лишь небольшую часть 73-миллионной пользовательской базы Reddit, а некоторые из них могут быть ботами или дубликатами аккаунтов.
Возникает вопрос о справедливом распределении возможных выплат, получаемых DAO от покупателей данных. В настоящее время DAO награждает пользователя «токенами» в виде криптовалюты, соответствуя их карме на Reddit. Однако карма может не всегда отражать качественный вклад в данные, особенно в небольших сообществах Reddit, где её может быть сложно заработать.
Казлаускас предлагает идею о том, что члены DAO могут делиться кроссплатформенными и демографическими данными, что делает DAO более ценным и стимулирует участие. Это также выдвигает требование дополнительного доверия пользователей к Vana и ответственного обращения с конфиденциальными данными.