ИИ справился с тестом на креативность лучше людей

Учёные из Норвегии и Финляндии опубликовали в журнале Scientific Reports свою работу, посвящённую сравнению креативных способностей людей и искусственного интеллекта. Средние показатели креативности чат-ботов оказались выше человеческих. Но люди получили почти все высшие и все низшие оценки. 

Эксперты отмечают, что большие языковые модели научились имитировать человеческое творчество. Однако это совсем не означает, что ИИ теперь обладает креативными способностями. Подобные исследования не ставят своей задачей «столкнуть лбами» людей и машин, но они помогают лучше разобраться в природе творчества человека и ИИ

Чтобы сравнить творческие способности людей и машин, учёные взяли тест альтернативного использования (Alternative Uses Test или AUT), к которому часто обращаются для изучения дивергентного мышления. — В своей статье они напоминают, что наиболее распространённые теории творчества основаны на концепции двойного процесса. Модель Гилфорда предполагает, что творческий процесс включает взаимодействие спонтанного (дивергентного) и контролируемого (конвергентного) способов мышления. Более спонтанное дивергентное мышление отвечает за оригинальность и новизну идей, тогда как контролируемое конвергентное оценивает актуальность идей по отношению к требованиям задачи. Ещё одна, ассоциативная теория творчества, предполагает, что творческие идеи возникают в результате установления связей между слабо связанными понятиями для формирования новых идей. 

В рамках AUT-теста 256 человек получили задание: придумать оригинальное и творческое применение для четырёх предметов — верёвки, коробки, карандаша и свечи. Испытуемых инструктировали следующим образом: «Цель состоит в том, чтобы придумать творческие идеи, которые покажутся людям умными, необычными, интересными, неординарными, остроумными, инновационными или отличными от других. Ваши идеи необязательно должны быть практичными или реалистичными; они могут быть глупыми или даже странными, если они предназначены для творческого, а не обычного использования. Вы можете ввести столько идей, сколько сможете, но их качество важнее количества». На придумывание идей для каждого предмета отводилось 30 секунд. 

Аналогичное задание получили три чат-бота: ChatGPT3.5, ChatGPT4 и Copy.Ai (на основе GPT3). Правда, в задания ботов пришлось внести коррективы: их попросили выдавать определённое количество идей, а также не быть многословными и ограничиться тремя словами (люди, чтобы уложиться в 30 секунд, формулировали идеи в 1 — 3 слова). При этом каждый бот тестировался 11 раз по каждому из четырёх предметов.  

Потом исследователи оценивали креативы людей и ИИ двумя методами. Первым был алгоритм, рассчитывающий, насколько близким оказывалось предполагаемое использование объекта к первоначальному назначению объекта. Второй заключался в том, чтобы попросить шесть человек-экспертов (которые не знали, что некоторые ответы были сгенерированы системами искусственного интеллекта) оценить каждый ответ по шкале от 1 до 5 с точки зрения того, насколько он был креативным и оригинальным. Затем были рассчитаны средние баллы для людей и ИИ. 

В результате средние оценки чат-ботов оказались выше человеческих. Но почти все максимальные и минимальные оценки принадлежали людям.

Доцент кафедры психологии Бергенского университета Симона Грассини, которая руководила исследованием, в интервью MIT Technology Review объяснила, что учёные не ставили перед собой цель доказать, что системы искусственного интеллекта способны заменить людей в творческих ролях. Их исследование поднимает философские вопросы об уникальных характеристиках человека.

«То, что машины могут хорошо справляться с задачами, предназначенными для измерения творческих способностей людей, не доказывает, что они способны на что-то, похожее на оригинальную мысль», — прокомментировал результаты исследования старший научный сотрудник Института Алана Тьюринга Райан Бернелл, который не участвовал в экспериментах.

По мнению Бернелла, протестированные чат-боты — это «чёрные ящики»; мы не знаем точно, на каких данных они обучались и как они генерируют свои ответы. «Возможно, модель не выдвигала новых творческих идей, она просто опиралась на то, что уже видела в своих обучающих данных, которые могли включать именно эту задачу альтернативного использования», — объяснил он. «В этом случае мы не измеряем креативность. Мы измеряем прошлые знания модели о такого рода задачах».

Источник

Поделиться ссылкой:

Total Views: 106 ,
 

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *