https://inosmi.ru/20231124/iskusstvennyy-intelekt-266716585.html

Невыполнимая задача. Эксперты объяснили, почему ИИ не умеет рисовать руки

Руки, нарисованные нейросетями, часто выглядят странно. Почему так получается? В интервью Vox эксперты рассказали о тонкостях работы искусственного интеллекта и | 24.11.2023, ИноСМИ

2023-11-24T14:09

vox

искусственный интеллект

живопись

мультимедиа

/html/head/meta[@name='og:title']/@content

/html/head/meta[@name='og:description']/@content

https://cdnn1.inosmi.ru/img/07e7/0b/18/266754862_0:79:1013:649_1920x0_80_0_0_64441ee4b97656af6fd6720a74b4ae79.jpg

Почему у искусственного интеллекта возникают проблемы с человеческими руками? Неважно, какую именно нейросеть вы используете, но на изображении человека с яблоком руки всегда выглядят странно. Почему это так сложно, ведь представляется довольно простым? Странно, ведь ИИ может мгновенно одеть Авраама Линкольна как гламурного Дэвида Боуи. Зато запрос "женщина с телефоном в руках" неизбежно влечет проблемы. Неспособность обработать человеческие руки может приоткрыть для нас завесу тайны функционирования ИИ.Что же в этом такого сложного?Я спросил художника, научившего тысячи людей рисовать руки по памяти.Полную версию видео смотрите эксклюзивно в сообществе ИноСМИ ВКонтакте— Прежде чем решить стать художником-любителем или выучиться на него профессионально, вы работаете с распознаванием образов, изучаете несметное количество разных рук и четко усваиваете, как они должны выглядеть.— Мы узнаём о внешнем виде разных вещей из окружающего нас мира благодаря распознаванию шаблонов. С ИИ ситуация схожая, но есть ряд важных отличий. Представьте, что искусственный интеллект — это вы, только с самого рождения запертый в музее. В таких условиях источники обучения машины сводятся к картинкам и небольшим плакатам на "стенах".Вот яблоко — красное яблоко на коричневом столе. Оно похоже на изображения из интернета и те описания, что к ним прилагаются. Это похоже на то, как обучаетесь вы, но взаперти. Чтобы получше изучить внешний вид яблока, мы можем покрутить его в руке и по-разному рассмотреть, а ИИ для этого нужно найти в своем "музее" еще одно изображение яблока. Распознавание образов позволяет ИИ и людям прилично рисовать эти самые яблоки, но процессы при этом происходят разные.— Итак, вы решили учиться на художника, и наступает момент выучить ряд правил. Здесь-то и появляется главное отличие от паттернов обучения искусственного интеллекта. Чтобы нарисовать нечто сложное, художники поначалу упрощают предметы до базовых форм. Ладонь, например, можно представить совокупностью блоков с добавлением передней и задней частей, а также толщины. Можно упростить образ до трехмерного квадрата. Дальше в ход идут стиль, текстура и детали.— ИИ действует иначе. Взгляните на эту руку: ее форма причудлива, но при этом нейросеть проделала хорошую работу со светом и текстурой. Помните: ИИ знает, как вещи выглядят, а как работают — нет. Пиксельные паттерны понять легко, в отличие от способов согнуть пальцы. Из-за "музейного обучения" нейросеть не упрощает форму, а просто пытается угадать, где должны быть пиксели, похожие на руки, без оглядки на функционирование последних в реальной жизни, как это делаем мы.Слушайте, меня это не устраивает. ИИ справляется с изображением рук хуже человека, но при этом способен, не обладая знаниями в области строительства, сгенерировать запрос "красивый небоскреб в Нью-Йорке". Чтобы во всем разобраться, я поговорил с двумя людьми, которые работают с генеративными моделями. Йилун Ду — аспирант, отдавший сердце робототехнике, но втянувшийся в работу с нейросетями на волне популярности ИИ.— Из-за того, насколько популярны эти модели в генеративном искусстве, я тоже ими увлекся.— Еще я пообщался с Роем Шилкротом, у которого весьма разностороннее резюме, но с 2018 года он преподает генеративное искусство.— Приходят хорошие студенты и пытаются сломать эти модели, чтобы вывести их на следующий уровень.— Давайте выделим три веские причины — не все, а только три, — по которым ИИ не может сгенерировать нормальное изображение рук. Это размер и качество данных, принцип работы кистей, и отсутствие права на ошибку.Разбирая пункт с размером данных, давайте вернемся к идее с музеем, в котором тусуется робот. В нем масса комнат, посвященных лицам — но не рукам, то есть возможностей для обучения у него меньше. Например, в фотохостинге Flickr хранится 70 тысяч лиц и 200 тысяч фотографий знаменитостей по множеству параметров, таких как "очки" или "острый нос". Существует приличный массив данных о руках, которые действительно помогут лучше их понять. Вот здесь, например, представлено 11 тыс. изображений кистей и ладоней, но они могли не использоваться в процессе обучения нейросети.Эта нехватка данных коррелирует с их качеством и сложностью. Данные о руках в художественном музее не имеют аннотации с объяснением принципа их работы, в отличие от конкретного запроса "знаменитости с острым носом".— Вот есть изображение, вот на нем человек, а в руке у него зонт. Вы не даете машине уточняющие подсказки, чтобы, скажем, его большой палец лежал поверх указательного, а не всех остальных, которые, в свою очередь, обхватывают ручку зонта.— Ситуация усугубляется тем, что руки действуют множеством способов, в отличие от того же лица, например.— Наиболее распространенные лица — это портретные фото, коих в интернете бессчетное множество. Суть в том, что изображение центрировано, и глаза всегда находятся в конкретном месте, и вообще существует определенный порядок.— Ситуация с руками иная, ведь они могут совершать множество разных движений: и так, и эдак. (Клянусь, я не пил!) Стэн, кстати, тоже этот момент упомянул.— Сколько пальцев сейчас видно: два или три? ИИ не знает, что их всегда пять, потому что видно бывает не все.— Эта проблема характерна не столько для рук, сколько для самого искусства ИИ-моделирования. Рассмотрим на примере лошадей.— Нейросеть может выдать лошадь с тремя, пятью, шестью ногами — вариантов много, а объяснять ему нюансы положения некогда. К тому же ИИ не настолько предвзят, как мы с вами.— Слышали последнюю мысль? Отлично, потому что это действительно важно!— ИИ не настолько предвзят, как мы с вами.— Мы много внимания уделяем рукам и хотим, чтобы они выглядели идеально. Права на ошибку почти нет. Но модель не понимает эстетику рук и видела их не так много, да и не может отследить их причудливое поведение, поэтому и выдает изображения, похожие на руки, которые она когда-то видела в своем музее, но не на реальные человеческие. Позвольте привести несколько примеров.Итак, попросим изобразить человека ровно с пятью веснушками на щеке. Эту картинку сгенерировала DALL-E, вот работа Stable Diffusion, а здесь потрудилась Midjourney. Отличная работа, могу сказать. Мы получили человека с рыжими волосами, у которого наверняка будут веснушки, только вот их не пять. Это не имеет особого значения, поскольку в итоге нам все же создали веснушчатое лицо.Для рук стандарты куда выше. Давайте еще раз взглянем на человека с яблоком. Я сделал три вариации этой картинки, и везде руки выглядят странно, но обратите внимание на другие моменты. ИИ изменил полоски на рубашке, пуговицы и вид яблока, но все это не особенно важно, потому что полоски остались полосками, пуговицы — пуговицами, а яблоко — яблоком. А вот такое подобие рук никуда не годится.Все эти размышления наводят на следующие выводы: ИИ плохо разбирается в искусстве в целом, как мы поняли на примере рук, и вряд ли в будущем сможет усовершенствоваться. Оба утверждения не совсем верны. Скажу, что на данный момент у современнейшей из современных нейросетей — Midjourney пятой версии (Mj5) — с руками явно стало намного лучше, но все же не до конца. Так что лучше не просите ИИ изображать зонт в руке.— Думаю, они тратят много времени на то, что нравится аудитории, но многое вы даже не замечаете. Да, пейзажи получаются хорошие, а вот с изображением людей есть куда стремиться.— Работа идет по двум направлением. Во-первых, специалисты заставляют нейросети прогонять через себя огромный объем изображений, что требует больше вычислительной производительности.— Эту проблему пытаются решить в широком масштабе, потому что тренировка на горстке изображений — это одно, а если их больше сотни — совсем другое, ведь процесс требует огромных ресурсов для переобучения самой модели.— Решением может стать привлечение в "музей" большего количества людей.— Есть интересная аналогия. Вы наверняка слышали о ChatGPT, так вот его главная отличительная особенность заключается в том, что за основу берется реакция пользователей. Разработчики генерируют множество предложений и просят людей их оценить. По сути, они настраивают модель таким образом, чтобы она генерировала предложения, которые людей убедят и устроят. Думаю, потребуется много инженерных усилий, чтобы заставить народ маркировать такое количество данных, но можно же просто спрашивать их, насколько хорошо нейросети генерируют изображения, и тогда многие проблемы исчезнут. Модели тренируют делать то, что нравится людям.— Дело не в руках, зубах или кубиках пресса — дело в шаблоне, куда входит множество переменных. У ИИ нет правил относительно того, как много их может быть, и он тренируется на разных объемах данных.

ИноСМИ

info@inosmi.ru

+7 495 645 66 01

ФГУП МИА «Россия сегодня»

158

2023

ИноСМИ

info@inosmi.ru

+7 495 645 66 01

ФГУП МИА «Россия сегодня»

158

Новости

ru-RU

https://inosmi.ru/docs/about/copyright.html

https://xn--c1acbl2abdlkab1og.xn--p1ai/

ИноСМИ

info@inosmi.ru

+7 495 645 66 01

ФГУП МИА «Россия сегодня»

158

1920

1080

true

1920

1440

true

https://cdnn1.inosmi.ru/img/07e7/0b/18/266754862_115:0:980:649_1920x0_80_0_0_ee5112e1c07e22d463a5f0524157bcdb.jpg

1920

true

ИноСМИ

info@inosmi.ru

+7 495 645 66 01

ФГУП МИА «Россия сегодня»

158

ИноСМИ

info@inosmi.ru

+7 495 645 66 01

ФГУП МИА «Россия сегодня»

158

vox, искусственный интеллект, живопись, мультимедиа, видео

VoxСША

24 ноября 2023 14:09

Оригинал статьи

Откуда у ИИ проблемы с руками?

Материалы ИноСМИ содержат оценки исключительно зарубежных СМИ и не отражают позицию редакции ИноСМИ

Читать inosmi.ru в

Руки, нарисованные нейросетями, часто выглядят странно. Почему так получается? В интервью Vox эксперты рассказали о тонкостях работы искусственного интеллекта и объяснили, почему им не под силу правильно изображать части человеческого тела.

—
Сгенерировать постапокалиптического жирафа-космонавта! Сделано.
—
Чингисхана с гитарой в пиксельной графике! Да не вопрос.
—
Мужчину с аппетитным яблоком в руках! Стоп, а что у него с руками?

Что же в этом такого сложного?

Я спросил художника, научившего тысячи людей рисовать руки по памяти.

Полную версию видео смотрите эксклюзивно в сообществе ИноСМИ ВКонтакте

— Прежде чем решить стать художником-любителем или выучиться на него профессионально, вы работаете с распознаванием образов, изучаете несметное количество разных рук и четко усваиваете, как они должны выглядеть.

— Мы узнаём о внешнем виде разных вещей из окружающего нас мира благодаря распознаванию шаблонов. С ИИ ситуация схожая, но есть ряд важных отличий. Представьте, что искусственный интеллект — это вы, только с самого рождения запертый в музее. В таких условиях источники обучения машины сводятся к картинкам и небольшим плакатам на "стенах".

Вот яблоко — красное яблоко на коричневом столе. Оно похоже на изображения из интернета и те описания, что к ним прилагаются. Это похоже на то, как обучаетесь вы, но взаперти. Чтобы получше изучить внешний вид яблока, мы можем покрутить его в руке и по-разному рассмотреть, а ИИ для этого нужно найти в своем "музее" еще одно изображение яблока. Распознавание образов позволяет ИИ и людям прилично рисовать эти самые яблоки, но процессы при этом происходят разные.

— Итак, вы решили учиться на художника, и наступает момент выучить ряд правил. Здесь-то и появляется главное отличие от паттернов обучения искусственного интеллекта. Чтобы нарисовать нечто сложное, художники поначалу упрощают предметы до базовых форм. Ладонь, например, можно представить совокупностью блоков с добавлением передней и задней частей, а также толщины. Можно упростить образ до трехмерного квадрата. Дальше в ход идут стиль, текстура и детали.

— ИИ действует иначе. Взгляните на эту руку: ее форма причудлива, но при этом нейросеть проделала хорошую работу со светом и текстурой. Помните: ИИ знает, как вещи выглядят, а как работают — нет. Пиксельные паттерны понять легко, в отличие от способов согнуть пальцы. Из-за "музейного обучения" нейросеть не упрощает форму, а просто пытается угадать, где должны быть пиксели, похожие на руки, без оглядки на функционирование последних в реальной жизни, как это делаем мы.

Слушайте, меня это не устраивает. ИИ справляется с изображением рук хуже человека, но при этом способен, не обладая знаниями в области строительства, сгенерировать запрос "красивый небоскреб в Нью-Йорке". Чтобы во всем разобраться, я поговорил с двумя людьми, которые работают с генеративными моделями. Йилун Ду — аспирант, отдавший сердце робототехнике, но втянувшийся в работу с нейросетями на волне популярности ИИ.

— Из-за того, насколько популярны эти модели в генеративном искусстве, я тоже ими увлекся.

— Еще я пообщался с Роем Шилкротом, у которого весьма разностороннее резюме, но с 2018 года он преподает генеративное искусство.

— Приходят хорошие студенты и пытаются сломать эти модели, чтобы вывести их на следующий уровень.

— Давайте выделим три веские причины — не все, а только три, — по которым ИИ не может сгенерировать нормальное изображение рук. Это размер и качество данных, принцип работы кистей, и отсутствие права на ошибку.

Разбирая пункт с размером данных, давайте вернемся к идее с музеем, в котором тусуется робот. В нем масса комнат, посвященных лицам — но не рукам, то есть возможностей для обучения у него меньше. Например, в фотохостинге Flickr хранится 70 тысяч лиц и 200 тысяч фотографий знаменитостей по множеству параметров, таких как "очки" или "острый нос". Существует приличный массив данных о руках, которые действительно помогут лучше их понять. Вот здесь, например, представлено 11 тыс. изображений кистей и ладоней, но они могли не использоваться в процессе обучения нейросети.

Эта нехватка данных коррелирует с их качеством и сложностью. Данные о руках в художественном музее не имеют аннотации с объяснением принципа их работы, в отличие от конкретного запроса "знаменитости с острым носом".

— Вот есть изображение, вот на нем человек, а в руке у него зонт. Вы не даете машине уточняющие подсказки, чтобы, скажем, его большой палец лежал поверх указательного, а не всех остальных, которые, в свою очередь, обхватывают ручку зонта.

— Ситуация усугубляется тем, что руки действуют множеством способов, в отличие от того же лица, например.

— Наиболее распространенные лица — это портретные фото, коих в интернете бессчетное множество. Суть в том, что изображение центрировано, и глаза всегда находятся в конкретном месте, и вообще существует определенный порядок.

— Ситуация с руками иная, ведь они могут совершать множество разных движений: и так, и эдак. (Клянусь, я не пил!) Стэн, кстати, тоже этот момент упомянул.

— Сколько пальцев сейчас видно: два или три? ИИ не знает, что их всегда пять, потому что видно бывает не все.

— Эта проблема характерна не столько для рук, сколько для самого искусства ИИ-моделирования. Рассмотрим на примере лошадей.

— Нейросеть может выдать лошадь с тремя, пятью, шестью ногами — вариантов много, а объяснять ему нюансы положения некогда. К тому же ИИ не настолько предвзят, как мы с вами.

— Слышали последнюю мысль? Отлично, потому что это действительно важно!

— ИИ не настолько предвзят, как мы с вами.

— Мы много внимания уделяем рукам и хотим, чтобы они выглядели идеально. Права на ошибку почти нет. Но модель не понимает эстетику рук и видела их не так много, да и не может отследить их причудливое поведение, поэтому и выдает изображения, похожие на руки, которые она когда-то видела в своем музее, но не на реальные человеческие. Позвольте привести несколько примеров.

Итак, попросим изобразить человека ровно с пятью веснушками на щеке. Эту картинку сгенерировала DALL-E, вот работа Stable Diffusion, а здесь потрудилась Midjourney. Отличная работа, могу сказать. Мы получили человека с рыжими волосами, у которого наверняка будут веснушки, только вот их не пять. Это не имеет особого значения, поскольку в итоге нам все же создали веснушчатое лицо.

Для рук стандарты куда выше. Давайте еще раз взглянем на человека с яблоком. Я сделал три вариации этой картинки, и везде руки выглядят странно, но обратите внимание на другие моменты. ИИ изменил полоски на рубашке, пуговицы и вид яблока, но все это не особенно важно, потому что полоски остались полосками, пуговицы — пуговицами, а яблоко — яблоком. А вот такое подобие рук никуда не годится.

Все эти размышления наводят на следующие выводы: ИИ плохо разбирается в искусстве в целом, как мы поняли на примере рук, и вряд ли в будущем сможет усовершенствоваться. Оба утверждения не совсем верны. Скажу, что на данный момент у современнейшей из современных нейросетей — Midjourney пятой версии (Mj5) — с руками явно стало намного лучше, но все же не до конца. Так что лучше не просите ИИ изображать зонт в руке.

— Думаю, они тратят много времени на то, что нравится аудитории, но многое вы даже не замечаете. Да, пейзажи получаются хорошие, а вот с изображением людей есть куда стремиться.

— Работа идет по двум направлением. Во-первых, специалисты заставляют нейросети прогонять через себя огромный объем изображений, что требует больше вычислительной производительности.

— Эту проблему пытаются решить в широком масштабе, потому что тренировка на горстке изображений — это одно, а если их больше сотни — совсем другое, ведь процесс требует огромных ресурсов для переобучения самой модели.

— Решением может стать привлечение в "музей" большего количества людей.

— Есть интересная аналогия. Вы наверняка слышали о ChatGPT, так вот его главная отличительная особенность заключается в том, что за основу берется реакция пользователей. Разработчики генерируют множество предложений и просят людей их оценить. По сути, они настраивают модель таким образом, чтобы она генерировала предложения, которые людей убедят и устроят. Думаю, потребуется много инженерных усилий, чтобы заставить народ маркировать такое количество данных, но можно же просто спрашивать их, насколько хорошо нейросети генерируют изображения, и тогда многие проблемы исчезнут. Модели тренируют делать то, что нравится людям.

— Дело не в руках, зубах или кубиках пресса — дело в шаблоне, куда входит множество переменных. У ИИ нет правил относительно того, как много их может быть, и он тренируется на разных объемах данных.

искусственный интеллект живопись Мультимедиа

Правила

Факт регистрации пользователя на сайтах РИА Новости обозначает его согласие с данными правилами.

Пользователь обязуется своими действиями не нарушать действующее законодательство Российской Федерации.

Пользователь обязуется высказываться уважительно по отношению к другим участникам дискуссии, читателям и лицам, фигурирующим в материалах.

Публикуются комментарии только на русском языке.

Комментарии пользователей размещаются без предварительного редактирования.

Комментарий пользователя может быть подвергнут редактированию или заблокирован в процессе размещения, если он:

пропагандирует ненависть, дискриминацию по расовому, этническому, половому, религиозному, социальному признакам, содержит оскорбления, угрозы в адрес других пользователей, конкретных лиц или организаций, ущемляет права меньшинств, нарушает права несовершеннолетних, причиняет им вред в любой форме;
призывает к насильственному изменению конституционного строя Российской Федерации
порочит честь и достоинство других лиц или подрывает их деловую репутацию;
распространяет персональные данные третьих лиц без их согласия;
преследует коммерческие цели, содержит спам, рекламную информацию или ссылки на другие сетевые ресурсы, содержащие такую информацию;
имеет непристойное содержание, содержит нецензурную лексику и её производные;
является частью акции, при которой поступает большое количество комментариев с идентичным или схожим содержанием («флешмоб»);
автор злоупотребляет написанием большого количества малосодержательных сообщений («флуд»);
смысл текста трудно или невозможно уловить;
текст написан по-русски с использованием латиницы;
текст целиком или преимущественно набран заглавными буквами;
текст не разбит на предложения.

В случае трехкратного нарушения правил комментирования пользователи будут переводиться в группу предварительного редактирования сроком на одну неделю.

При многократном нарушении правил комментирования возможность пользователя оставлять комментарии может быть заблокирована.

Пожалуйста, пишите грамотно – комментарии, в которых проявляется неуважение к русскому языку, намеренное пренебрежение его правилами и нормами, могут блокироваться вне зависимости от содержания.