Что значат для науки ChatGPT и генеративный искусственный интеллект

Nature: новый чат-бот быстро выдает убедительные ответы, но не без ошибок

Читать на сайте inosmi.ru
Материалы ИноСМИ содержат оценки исключительно зарубежных СМИ и не отражают позицию редакции ИноСМИ
Чат-боты, созданные на основе искусственного интеллекта, теперь задействованы и в науке, пишет Nature. Они могут писать компьютерные коды, находить ошибки в уравнениях и даже писать научные статьи, причем за скромный гонорар. Но так ли хороша и эффективна эта умная технология?
Последние достижения в области искусственного интеллекта одновременно обрадовали и обеспокоили исследователей.
Читайте ИноСМИ в нашем канале в Telegram
В декабре специалисты в области вычислительной биологии Кейси Грин (Casey Greene) и Милтон Пивидори (Milton Pividori) поставили необычный эксперимент: они попросили некоего ассистента (не ученого) помочь им улучшить три их исследовательские работы. Выяснилось, что их трудолюбивый помощник предлагал поправки к отдельным подразделам за считанные секунды, а на рассмотрение целой рукописи уходило примерно пять минут. В одной работе по биологии он даже заметил ошибку в ссылке на уравнение. Эксперимент не всегда проходил гладко, но после правки рукописи стали "читабельнее", а гонорар ассистент запросил весьма скромный — менее 50 центов за документ.
Этот помощник, как сообщили Грин и Пивидори, — не человек, а алгоритм искусственного интеллекта (ИИ) под названием GPT-3, впервые выпущенный в 2020 году. Это один из нашумевших генеративных инструментов ИИ в оболочке чат-бота, который выдает продуманно написанные тексты в любом жанре — будь то проза, стихи, компьютерный код или, как в случае с нашими исследователями, редактирование научных статей.
Пожалуй, известнейший из этих инструментов (их еще называют "большими языковыми моделями, или LLM) — это ChatGPT, бесплатная версия GPT-3 от ноября прошлого года, прославившаяся благодаря своей легкодоступности. Есть и другие генеративные инструменты ИИ для создания изображений или звуков.
"Я действительно впечатлен, — говорит Пивидори из Пенсильванского университета в Филадельфии. — Это облегчит ученым задачу и повысит нашу исследовательскую продуктивность". Его коллеги говорят, что регулярно пользуются LLM не только для редактирования рукописей, но при написании или проверке кода — и даже для "мозгового штурма". "Я пользуюсь LLM каждый день", — признался специалист по информатике из Исландского университета в Рейкьявике Хафстейн Эйнарссон (Hafsteinn Einarsson). Начинал он с GPT-3, но с тех пор перешел на ChatGPT, который помогает ему придумывать слайды для презентаций, экзаменационные задания для студентов и даже перерабатывать диссертации под формат научной статьи. "Многие пользуются им как цифровым секретарем или помощником", — говорит Эйнарссон.
Большие языковые модели, или LLM, используются в поисковых системах, ассистентах для написания кода и даже чат-ботах, которые переговариваются с "коллегами" из других компаний, чтобы выбить скидку на те или иные товары. Компания OpenAI из Сан-Франциско установила стоимость месячной подписки в 20 долларов, суля пользователям ускоренное время отклика и приоритетный доступ к новым функциям (хотя пробная версия по-прежнему доступна бесплатно). А технический гигант Microsoft мало того что уже вложился в OpenAI, так еще и в январе объявил о новых инвестициях — по предварительным данным, на десять миллиардов долларов. Предполагается, что LLM вольются в состав программного обеспечения для обработки текстов и данных. Сегодняшние инструменты по сути представляют собой генеративный ИИ в зачаточном состоянии, но в будущем он наверняка станет в нашем обществе поистине вездесущим.
При этом LLM уже стали поводом для беспокойства: во-первых, пока что они все еще сильно фальшивят, а во-вторых, люди могут выдавать текст, созданный при помощи ИИ, за свой собственный. В ответ на наши расспросы о потенциальном применении чат-ботов вроде того же ChatGPT исследователи высказали тревогу и опасения. "Если вы считаете, что у этой технологии есть революционный потенциал, то, полагаю, уже можно начинать нервничать", — говорит Кейси Грин с медицинского факультета Университета Колорадо в Авроре. По словам исследователей, многое в специфике работы чат-ботов с ИИ будет зависеть от будущих правил и рекомендаций.

Бегло, но не безошибочно

Некоторые ученые считают, что LLM в целом ускоряют выполнение таких задач как написание статей или обоснование грантов — при условии человеческого контроля, конечно же. "Ученые больше не будут просиживать часы за долгими предисловиями к заявкам на гранты", — говорит нейробиолог из Сальгренской университетской больницы в шведском Гётеборге Альмира Османович-Тунстрём (Almira Osmanovic Thunström), соавтор экспериментальной рукописи с использованием GPT-3. — Они передадут эту задачу специальным системам".
Инженер-исследователь лондонской консалтинговой фирмы по программному обеспечению InstaDeep Том Тумиэль (Tom Tumiel) говорит, что каждый день пользуется LLM как помощником для написания кода. "Это как Stack Overflow, только лучше", — говорит он, имея в виду популярный сайт, где программисты отвечают на вопросы друг друга.
Но исследователи подчеркивают, что на LLM пока нельзя полагаться безоговорочно: иногда они ошибаются. "Поэтому в образовательных целях этими системами надо пользоваться с осторожностью", — говорит Османович-Тунстрем.
Эта ненадежность — следствие самого устройства LLM. ChatGPT и конкурирующие программы изучают статистические модели языка по огромным корпусам текстов, а там могут встретиться неправда, предрассудки или устаревшая информация. И по запросу (например, в ответ на четко сформулированную просьбу Грина и Пивидори переписать отдельные разделы рукописей), они просто пословно выдают стилистически правдоподобное продолжение.
В результате LLM легко воспроизводят имеющиеся ошибки и могут ввести в заблуждение — особенно по техническим темам, по которым им не хватает данных для обучения. Кроме того, LLM не могут указать происхождение своих данных, а когда их просят написать научную статью, то запросто придумывают вымышленные цитаты. "Нельзя полагаться на них по части достоверности фактов и надежности ссылок", — отмечалось в январской редакционной статье о ChatGPT в журнале Nature Machine Intelligence.
С этими оговорками ChatGPT и другие LLM могут стать полезным подспорьем для опытных исследователей, кому самим по силам выявлять проблемы и проверять правильность ответов — будь то научное объяснение или предложенный компьютерный код.
Неискушенных же пользователей эти инструменты запросто могут ввести в заблуждение. Поэтому в декабре Stack Overflow временно запретил использование ChatGPT: модераторы сайта столкнулись с наплывом вроде бы убедительных, но при этом ложных ответов, созданных LLM на радость ничего не подозревающим пользователям. Для поисковиков это может стать сущим кошмаром.

Устранимы ли недостатки?

Некоторые поисковые инструменты — например, заточенный под исследователей Elicit — решают проблемы атрибуции LLM так: сперва запросы перенаправляются на соответствующую литературу, а затем по каждой ссылке выводится краткое содержание (хотя LLM вполне может и ошибочно резюмировать отдельно взятый документ).
Компании-разработчики LLM в курсе проблем. В сентябре прошлого года дочерняя компания Google DeepMind опубликовала статью о так называемом "диалоговом агенте" под названием Sparrow. Как позже поведал журналу Time исполнительный директор и соучредитель Демис Хассабис (Demis Hassabis), бета-тестирование начнется в этом году. Журнал сообщил, что Google в частности дорабатывает такие функции как возможность цитирования источников. Другие конкуренты — например, Anthropic — утверждают, что часть проблем ChatGPT уже решили (от комментариев для данной статьи Anthropic, OpenAI и DeepMind отказались).
Преподаватели обеспокоены: ученики обязательно приспособят новоявленный чат-бот ChatGPT для списыванияС помощью одного приложения теперь можно писать сочинения, песни и даже компьютерные коды, пишет WP. Новый чат-бот ChatGPT работает на основе ИИ и справляется с огромным количеством задач не хуже человека. Одних это ноу-хау искушает, а у других вызывает серьезные опасения.
По мнению некоторых ученых, на сегодняшний день ChatGPT недостаточно обучен специализированным данным и не может быть полезен в технических темах. Аспирант по биостатистике Гарвардского университета в Кембридже, штат Массачусетс, Карим Карр (Kareem Carr) опробовал его в своей работе и оказался не в восторге. "Мне показалось, что ChatGPT трудновато будет достичь нужного мне уровня конкретики", — говорит он. При этом Карр признался, что в ответ на запрос о 20 способах решения конкретной задачи помимо всякой тарабарщины ChatGPT выдал одну полезную идею — неизвестный ему доселе статистический термин, который открыл ему целое направление научной литературы.
Некоторые технологические фирмы обучают чат-ботов по специальной научной литературе, но столкнулись с другими трудностями. В ноябре прошлого года Meta* — технологический гигант и владелец Facebook* — выпустил LLM под названием Galactica. Программа обучалась на научных рефератах с прицелом на создание академического материала и ответы на вопросы ученых. Однако демонстрационную версию из публичного доступа удалили (хотя ее исходный код остается доступным): оказалось, что по запросам пользователей она выдавала ошибки и расистские заявления. "Больше не сможете валять дурака, издевательства закончились. Доигрались", — написал у себя в Твиттере главный специалист по ИИ компании Meta* Янн ЛеКун (Yann LeCun) в ответ на критику. (Meta* на просьбу поговорить с Лекуном через пресс-службу не откликнулась).

Безопасность и ответственность

Galactica столкнулась с общеизвестной проблемой безопасности, о которой специалисты по этике предупреждают уже много лет: без контроля вывода LLM элементарно использовать для создания ненавистнических высказываний и спама, а также расистских, сексистских и других вредных намеков, которые можно скрыть в обучающих данных.
"Помимо создания токсичного контента как такового, есть опасения, что чат-боты на основе ИИ будут насаждать исторические предубеждения или устарелые представления о мире из исходных данных обучения — например, о превосходстве определенных культур", — говорит директор программы в области науки, технологий и общественной политики Мичиганского университета в Анн-Арборе Шобита Партасарати (Shobita Parthasarathy). Поскольку фирмы-создатели крупных LLM в основном представляют именно такие культуры, едва ли они попытаются эти предубеждения преодолеть, ведь они носят системный характер и их трудно исправить, добавляет она.
OpenAI попытался решить хотя бы часть этих проблем, опубликовав исходники ChatGPT. Он ограничил базу знаний 2021 годом, запретил программе просматривать интернет и установил фильтры, запрещающие создавать контент по щекотливым темам или заведомо ядовитым запросам. Для этого, однако, понадобилось, чтобы фрагменты токсичного текста редактировались модераторами-людьми. Но, как сообщают журналисты, этим работникам недоплачивают, а некоторые получили еще и психологические травмы. Аналогичные опасения насчет эксплуатации персонала высказывались и в отношении платформ социальных сетей, которые нанимали людей, чтобы обучать автоматических ботов распознавать токсичный контент.
Но даже меры предосторожности OpenAI успехом не увенчались. В декабре прошлого года специалист в области вычислительный нейробиологи Стивен Пиантадоси (Steven Piantadosi) из Калифорнийского университета в Беркли рассказал у себя в Твиттере о том, как он ради эксперимента попросил ChatGPT разработать программу на языке программирования Python, чтобы определить, следует ли подвергать человека пыткам из-за его страны происхождения. Чат-бот в ответ выдал искомый код с окошком для ввода страны и предложил пытать граждан Северной Кореи, Сирии, Ирана и Судана. Впоследствии OpenAI такого рода запросы запретила.
В прошлом году группа ученых выпустила альтернативную LLM под названием BLOOM. Исследователи попытались свести к минимуму вредные результаты, обучая систему на меньшей выборке высококачественных текстовых источников на разных языках. Команда также полностью обнародовала список обучающих данных (в отличие от OpenAI). Исследователи призвали технологических гигантов поступить ответственно и последовать их примеру, но прислушаются ли они, пока неясно.
Некоторые исследователи говорят, что ученые должны вообще отказаться от поддержки крупных коммерческих LLM. Помимо предвзятости, проблем с безопасностью и эксплуатации персонала эти ресурсоемкие алгоритмы требуют для обучения огромного количества энергии — отсюда опасения насчет пагубного воздействия на окружающую среду. Еще один повод для беспокойства — это что переложив мышление на автоматизированных чат-ботов, исследователи разучатся излагать собственные мысли. "Чего мы, ученые, добьемся, если будем пользоваться этим продуктом сами и открыто его рекламировать другим?" — написала специалист по вычислительной когнитивистике из Университета Радбода Утрехтского в голландском Неймегене Ирис ван Рой (Iris van Rooij) у себя в блоге, призвав коллег не поддаваться давлению.
Путаница связана и правовым статусом некоторых LLM, которые обучались на извлеченном из интернета контенте, порой без четкого разрешения. Сегодняшние законы об авторском праве и лицензировании распространяются на прямые копии пикселей, текста и программного обеспечения — но не на подражания их стилю. Но когда созданные с помощью ИИ имитации в процессе обучения впитывают в себя оригиналы, получается закавыка. Некоторым создателям художественных программ искусственного интеллекта, в частности Stable Diffusion и Midjourney, уже были предъявлены иски от художников и фотоагентств. OpenAI и Microsoft (наряду с их дочерним техническим сайтом GitHub) также обвиняются в пиратстве программного обеспечения в связи с созданием Copilot, помощника по написанию программного кода. Недовольство может привести к изменению законов, считает специалист по интернет-праву из Ньюкаслского университета в Великобритании Лилиан Эдвардс (Lilian Edwards).
В Измире состоялась беседа на тему "Отнимут ли роботы у нас работу?"Споры о том, отнимут ли роботы рабочие места у людей, продолжаются, пишет Evrensel. Кто-то выражает пессимизм. Но если посмотреть на Amazon, то все выглядит не так страшно. Суть проблемы не в использовании роботов, а в правильном их применении, считает автор статьи.

Как добиться честного использования

По мнению ряда исследователей, делу поможет установление четких границ использования этих инструментов. Эдвардс предполагает, что сохранить честность, прозрачность и справедливость при использовании LLM помогут существующие законы о дискриминации и предрассудках, а также законодательство против опасного применения ИИ, которое сейчас разрабатывается. "Есть масса законов, — говорит Лилиан Эдвардс, — их нужно просто начать применять или немного подправить".
В то же время наметилось стремление к максимальному раскрытию информации об использовании LLM. Некоторые научные издатели (включая Nature) обязали ученых полностью раскрывать информацию о применении LLM в исследовательских работах. Аналогичного поведения ожидают от своих студентов и преподаватели. Журнал Science пошел еще дальше, заявив, что не будет допускать статьи, написанные с использованием ChatGPT или любого другого инструмента ИИ.
Ключевой технический вопрос заключается в том, насколько легко обнаружить контент, созданный ИИ. Над этим работают многие исследователи — и помогают им в этом сами LLM.
Так, в декабре прошлого года студент факультета информатики Принстонского университета в Нью-Джерси Эдвард Тиан (Edward Tian) опубликовал программу GPTZero. Этот инструмент обнаружения ИИ анализирует текст по двум параметрам. Один — это так называемая "перплексия" ("замешательство"). Он показывает, насколько "чужим" текст кажется LLM. Инструмент Тиана применяет более раннюю модель под названием GPT-2. Если она находит большинство слов и предложений предсказуемыми, то текст с большой долей вероятности порожден ИИ. Инструмент также исследует разнообразие в тексте — это называется "вариативность": сгенерированный ИИ текст зачастую более последователен по тону, интонации и сложности, чем написанный людьми.
На выявление контента, написанного ИИ, нацелены и многие другие продукты. Сама OpenAI уже выпустила детектор для GPT-2, а в январе — еще один инструмент обнаружения. Для ученых особенно важна разработка фирмы Turnitin, которая делает программное обеспечение для борьбы с плагиатом. Продукты Turnitin уже используются в школах, университетах и научных издательствах по всему миру. По собственным словам, компания разрабатывает программное обеспечение для обнаружения ИИ с момента выпуска GPT-3 в 2020 году и планирует запустить его в первой половине этого года.
Ни один из этих инструментов не претендует на безошибочность — особенно если сгенерированный ИИ текст впоследствии редактируется. Кроме того, детекторы могут ошибочно приписать авторство "человеческого" текста искусственному интеллекту, объясняет Скотт Ааронсон (Scott Aaronson), специалист по информатике из Техасского университета в Остине и приглашенный исследователь OpenAI. Фирма заявила, что на недавних испытаниях ее последний инструмент неверно атрибутировал написанный человеком текст в 9% случаев и, наоборот, верно определил лишь 26% текстов, написанных ИИ. По словам Ааронсона, чтобы обвинить студента в сокрытии факта использования ИИ, потребуются дополнительные доказательства помимо просто вердикта детектора.
Еще одна идея — это помечать ИИ-контент особым водяным знаком. В ноябре прошлого года Ааронсон объявил, что они с OpenAI работают над нанесением водяных знаков на текстовый вывод ChatGPT. Эта технология еще не совсем готова, но в сигнальной публикации от 24 января от группы под руководством компьютерного специалиста Тома Гольдштейна (Tom Goldstein) из Университета Мэриленда в Колледж-Парке, излагается один из способов нанесения водяного знака. Идея заключается в том, чтобы использовать генераторы случайных чисел в определенные моменты работы LLM для создания правдоподобных словарных альтернатив использованным оборотам. Это оставит в конечном тексте следы выбора, не очевидные для читателя, но распознаваемые стилистически. Теоретически редактирование поможет устранить этот след, но Гольдштейн предполагает, что в таком случае придется изменить более половины слов.
Преимущество водяных знаков заключается в том, что они редко дают ложные срабатывания, отмечает Ааронсон. Наличие водяного знака с большой долей вероятности говорит о том, что текст создан с помощью ИИ. Но и это небезошибочно, говорит он: "Разумеется, если задаться целью, можно обойти практически любую схему водяных знаков". Инструменты обнаружения и водяные знаки хоть и осложнят жизнь мошенникам, но не смогут пресечь нечестное применение ИИ как таковое.
Тем временем создатели LLM разрабатывают более сложные чат-боты на основе более крупных выборок данных (ожидается, что OpenAI выпустит GPT-4 уже в этом году), — в том числе специальные инструменты для научной или медицинской работы. В конце декабря Google и DeepMind опубликовали сигнальный экземпляр статьи о клинически ориентированной LLM под названием Med-PaLM7. На некоторые медицинские вопросы инструмент отвечает почти не хуже живого врача, хотя недостатки и неточности сохраняются.
Директор Научно-исследовательского института Скриппса в Сан-Диего Эрик Топол (Eric Topol) надеется, что в будущем ИИ на основе LLM помогут диагностировать рак и лучше понять болезнь путем перекрестной сверки текстов из академических источников со снимками, подытоживающие результаты сцинтиграфии тела. Разумеется, это придется выполнять под присмотром специалистов, подчеркнул он.
Информатика в основе генеративного, или порождающего, ИИ развивается столь быстро, что новинки появляются каждый месяц. Их будущее – да и наше тоже – будет зависеть от того, как именно исследователи будут их использовать. "Считать, что в начале 2023 года мы уже увидели конец всего этого, — чистое безумие, — резюмировал Топол. — Все только начинается".
Автор: Крис Стокел-Уокер (Chris Stokel-Walker)
* деятельность Meta (соцсети Facebook и Instagram) запрещена в России как экстремистская
Обсудить
Рекомендуем