New York Times, CNN и австралийская ABC блокируют веб-сканеру OpenAI GPTBot доступ к контенту
ДомДом > Блог > New York Times, CNN и австралийская ABC блокируют веб-сканеру OpenAI GPTBot доступ к контенту

New York Times, CNN и австралийская ABC блокируют веб-сканеру OpenAI GPTBot доступ к контенту

Sep 01, 2023

Chicago Tribune и австралийские газеты Canberra Times и Newcastle Herald также, судя по всему, запретили поисковому роботу создателя Chat GPT.

Новостные агентства, в том числе New York Times, CNN, Reuters и Австралийская радиовещательная корпорация (ABC), заблокировали инструмент OpenAI, ограничив возможность компании продолжать доступ к их контенту.

OpenAI стоит за одним из самых известных чат-ботов с искусственным интеллектом ChatGPT. Его веб-сканер, известный как GPTBot, может сканировать веб-страницы, чтобы улучшить свои модели искусственного интеллекта.

The Verge первой сообщила, что New York Times заблокировала GPTBot на своем сайте. Впоследствии The Guardian обнаружила, что другие крупные новостные веб-сайты, в том числе CNN, Reuters, Chicago Tribune, ABC и бренды Australian Community Media (ACM), такие как Canberra Times и Newcastle Herald, по-видимому, также запретили использование веб-сканера.

Так называемые большие языковые модели, такие как ChatGPT, требуют огромных объемов информации для обучения своих систем и позволяют им отвечать на запросы пользователей способами, напоминающими шаблоны человеческого языка. Но стоящие за ними компании часто умалчивают о наличии в своих наборах данных материалов, защищенных авторским правом.

Блокировку GPTBot можно увидеть в файлах robots.txt издателей, которые сообщают сканерам поисковых систем и других организаций, какие страницы им разрешено посещать.

«Разрешение GPTBot получить доступ к вашему сайту может помочь моделям ИИ стать более точными, улучшить их общие возможности и безопасность», — заявил OpenAI в сообщении в блоге, в котором содержались инструкции о том, как запретить сканеру.

Все проверенные торговые точки добавили блок в августе. Некоторые также запретили CCBot, веб-сканер открытого хранилища веб-данных, известного как Common Crawl, который также использовался для проектов искусственного интеллекта.

CNN подтвердил Guardian Australia, что недавно заблокировал GPTBot во всех своих изданиях, но не прокомментировал, планирует ли бренд предпринимать дальнейшие действия в отношении использования своего контента в системах искусственного интеллекта.

Представитель Reuters заявил, что компания регулярно пересматривает файл robots.txt и условия использования сайта. «Поскольку интеллектуальная собственность является источником жизненной силы нашего бизнеса, крайне важно защищать авторские права на наш контент», — сказала она.

По словам представителя, условия обслуживания New York Times были недавно обновлены, чтобы сделать запрет на «сбор нашего контента для обучения и развития ИИ… еще более ясным», по словам представителя.

По состоянию на 3 августа правила веб-сайта прямо запрещают использование контента издателя для «разработки любых программ, включая, помимо прочего, обучение систем машинного обучения или искусственного интеллекта (ИИ)» без согласия.

Новостные агентства по всему миру сталкиваются с необходимостью принятия решения о том, использовать ли ИИ для сбора новостей, а также о том, как поступить с их контентом, который может оказаться втянутым в учебные пулы компаний, разрабатывающих системы ИИ.

В начале августа средства массовой информации, в том числе Agence France-Presse и Getty Images, подписали открытое письмо с призывом к регулированию ИИ, включая прозрачность «состава всех обучающих наборов, используемых для создания моделей ИИ» и согласие на использование материалов, защищенных авторским правом.

Google предложил, чтобы системы искусственного интеллекта имели возможность проверять работу издателей, если они явно не откажутся от этого.

В представлении австралийскому правительству обзора нормативно-правовой базы в области ИИ компания приводила доводы в пользу «систем авторского права, которые обеспечивают надлежащее и справедливое использование контента, защищенного авторским правом, для обучения моделей ИИ в Австралии на широком и разнообразном спектре данных, в то время как поддержка работоспособного отказа».

Исследование компании OriginalityAI, которая проверяет наличие искусственного интеллекта, на этой неделе показало, что крупные веб-сайты, включая Amazon и Shutterstock, также заблокировали GPTBot.

Файл robot.txt The Guardian не запрещает использование GPTBot.

ABC, Australian Community Media, Chicago Tribune, OpenAI и Common Crawl не ответили в установленный срок.