https://inosmi.ru/20251105/musor-275476950.html
Пора задуматься, пока не поздно: от "мусора" в Интернете тупеет даже ИИ
Пора задуматься, пока не поздно: от "мусора" в Интернете тупеет даже ИИ
Пора задуматься, пока не поздно: от "мусора" в Интернете тупеет даже ИИ
Чат-боты, обученные на некачественных данных, допускают ошибки в рассуждениях, пишет Nature. Более того, портится и их "характер". С информацией, способной... | 05.11.2025, ИноСМИ
2025-11-05T00:20
2025-11-05T00:20
2025-11-05T00:27
nature
наука
калифорния
китай
австралия
alibaba
linkedin
meta
искусственный интеллект (ии)
/html/head/meta[@name='og:title']/@content
/html/head/meta[@name='og:description']/@content
https://cdnn1.inosmi.ru/img/07e9/01/1b/271628851_0:0:686:386_1920x0_80_0_0_61dedea093a8e526d82a4875430bd176.jpg
Рэйчел Филдхаус (Rachel Fieldhouse)Большие языковые модели (LLM), которые используют низкокачественные данные, рассуждают сбивчиво.ИноСМИ теперь в MAX! Подписывайтесь на главное международное >>>Если чат-бот, который работает на основе искусственного интеллекта (ИИ), продолжать обучать на больших объёмах низкокачественной информации (особенно если уповать на информацию, которая пользуется популярностью в соцсетях), то в результате окажется, что такой чат-бот будет хуже искать точную информацию, а его способность к логическому мышлению станет снижаться. Об этих выводах говорится в препринте, опубликованном 15 октября на сайте электронного архива arXiv.В науке о данных постулируется, что качественные данные должны соответствовать определённым критериям, таким как грамматическая правильность и понятность, говорит соавтор исследования Чжанъян Ван (Zhangyang Wang), изучающий генеративный ИИ в Техасском университете в Остине. Однако, по его словам, эти критерии не учитывают различия в качестве входящего контента.Чжанъян Ван с коллегами решили изучить вопрос об особенностях работы больших языковых моделей (LLM), которые обучены на множестве низкокачественных данных (то есть коротких популярных публикациях в социальных сетях или постах, содержащих поверхностную, неглубокую или же претендующую на сенсационность информацию). Ученые изучили, каким образом эти данные влияют на способность LLM-модели делать логические выводы, извлекать информацию из больших объемов входных данных, на этичность ответов, а также индивидуальные черты LLМ-модели.Команда ученых пришла к следующему выводу: LLМ-модели, обученные на данных низкого качества, делают сбои в процессе формирования рассуждений (или вообще игнорируют рассуждения), что приводит к предоставлению неверной информации по запросу. Бывают также следующие ситуации: если такой LLМ-модели предлагался вопрос с несколькими вариантами ответов, то она выбирала неправильный ответ. Кроме того, рассматривался набор данных, в которых качественная информация содержалась вперемешку с неточной. В результате выяснилось, что негативное влияние на процесс формирования рассуждений увеличивается по мере увеличения доли неточных данных. (Заметим, что работа ученых не рецензировалась).Результаты подтверждают давний принцип ИИ — важность качества данных, говорит специалист в области ИИ Мехвиш Насим (Mehwish Nasim) из Университета Западной Австралии в г. Перте. "Ещё до того момента, как люди начали работать с большими языковыми моделями, мы говорили: если вы будете скармливать языковой ИИ-модели мусор, то она и будет выдавать мусор", — добавляет Мехвиш Насим.Мусор на входе — мусор на выходеВ ходе исследования Чжанъян Ван с коллегами использовали миллион публикаций, имеющихся в открытом доступе в социальной сети X. При этом использовалась база данных для обучения моделей с открытым исходным кодом: Llama 3 (LLM технологической компании Meta* из г. Менло-Парк, шт. Калифорния) и три версии Qwen, разработанные компанией Alibaba из г. Ханчжоу, Китай. Qwen — это модель, разработанная с акцентом на способность рассуждать (подобно модели R1 от DeepSeek и o1 от OpenAI), то есть она специально предназначена для формирования рассуждений с тем, чтобы предоставлять ответ на запросы пользователя. Однако Llama представляет собой LLМ-модель, настроенную на выполнение определенных инструкций, при этом её способность к рассуждению менее развита.Для того чтобы определить индивидуальные черты LLМ-модели, ученые использовали психологические опросники. Перед тем как модель Llama обучили на некачественных данных, утверждают авторы, она демонстрировала доброжелательность, экстраверсию, добросовестность, открытость и отчасти даже что-то вроде самолюбования. Однако по мере того, как в Llama загружались всё более и более некачественные данные, всё больше стали проступать ее неблаговидные черты, или, как говорилось в одном из опросников, – у LLМ-модели стал проявляться патологический характер.Для того чтобы ИИ LLМ-модели с течением времени могли адаптироваться и стать более качественными, ученые стали прибегать к корректировке с помощью инструкций. Когда же команда ученых попробовала проделать это с моделью Llama, обученной исключительно на неточных, "мусорных" данных, то было установлено, что это лишь отчасти улучшило качество ее работы, равно как и увеличило объем неточных данных, использовавшихся для обучения. Когда ученые пыталась побудить эту LLМ-модель проанализировать и исправить ошибки, она также продолжала делать сбои в процессе формирования рассуждений. А это указывает на необходимость использования иных методов, которые помогли бы снизить степень негативного влияния "мусорных", некачественных данных.Данный вывод показывает: решающее значение для предотвращения деградации интеллекта, которая наблюдается у LLМ-моделей ИИ, имеет качество исходных данных, говорит Стэн Каранасиос (Stan Karanasios), который занимается исследованиями искусственного интеллекта и социальных сетей в Квинслендском университете (Австралия). "Самое важное — тщательно отбирать и фильтровать данные, исключать низкокачественный и любой другой контент, претендующий на сенсационность", — добавляет Каранасиос.По результатам исследования журнал Nature обратился за комментариями к компаниям Meta* и Alibaba.Штаты начинают войну с Россией. В этом случае Китай знает, что делатьПо словам Мехвиш Насим, необходимо проводить более масштабные исследования с использованием в том числе LLМ-моделей разных размеров, а также патентованных, таких как ChatGPT. Проблема с изучением коммерческих патентованных моделей заключается в том, что ученым приходится за них платить; к тому же, им не разрешается их обучать, говорит Насим. Будущие исследования покажут, можно ли исправить упомянутые выше негативные эффекты, если LLМ-модели обучать на оптимальном множестве качественных данных, добавляет Насим.В прошлом месяце социальная медиаплатформа LinkedIn объявила о том, что с 3 ноября 2025 года она планирует использовать данные и контент пользователей из Великобритании, некоторых стран Европейского Союза и Швейцарии для обучения моделей генеративного искусственного интеллекта.*Запрещенная в России экстремистская организация.
/20251103/ii-275454498.html
калифорния
китай
австралия
ИноСМИ
info@inosmi.ru
+7 495 645 66 01
ФГУП МИА «Россия сегодня»
2025
ИноСМИ
info@inosmi.ru
+7 495 645 66 01
ФГУП МИА «Россия сегодня»
Новости
ru-RU
https://inosmi.ru/docs/about/copyright.html
https://xn--c1acbl2abdlkab1og.xn--p1ai/
ИноСМИ
info@inosmi.ru
+7 495 645 66 01
ФГУП МИА «Россия сегодня»
https://cdnn1.inosmi.ru/img/07e9/01/1b/271628851_94:0:609:386_1920x0_80_0_0_212bf2f0d6133a9a8de6b477d7552f4e.jpgИноСМИ
info@inosmi.ru
+7 495 645 66 01
ФГУП МИА «Россия сегодня»
ИноСМИ
info@inosmi.ru
+7 495 645 66 01
ФГУП МИА «Россия сегодня»
nature, наука, калифорния, китай, австралия, alibaba, linkedin, meta, искусственный интеллект (ии)