Notebookcheck Logo

Люди могут легко превзойти искусственный интеллект, согласно исследованию, финансируемому Apple

Люди против ИИ (Источник изображения: сгенерировано с помощью DALL-E 3)
Люди против ИИ (Источник изображения: сгенерировано с помощью DALL-E 3)
Несмотря на то, что они часто показывают впечатляющие результаты, движкам ИИ, таким как Meta и OpenAI, использующим большие языковые модели, все еще не хватает базовых возможностей рассуждения. Группа, поддерживаемая сайтом Apple, предложила новый эталон, который уже показал, что даже малейшие изменения формулировок в запросе могут привести к совершенно разным ответам.

Ранее в этом месяце команда из шести ученых в области ИИ при поддержке Apple опубликовала исследование, в котором они представили GSM-Symbolic, новый эталон ИИ, который "позволяет проводить более контролируемые оценки, предоставляя ключевые идеи и более надежные метрики для измерения способности моделей к рассуждению" К сожалению, похоже, что LLM все еще сильно ограничены и им не хватает самых базовых возможностей рассуждения, показали первые тесты, проведенные с помощью GSM-Symbolic с движками ИИ от таких икон индустрии, как Meta и OpenAI.

Проблема существующих моделей, как показали вышеупомянутые тесты, заключается в недостаточной надежности LLM при выполнении аналогичных запросов. Исследование пришло к выводу, что незначительные изменения формулировок, которые не изменили бы смысл запроса для человека, часто приводят к другим ответам от ботов ИИ. Исследование не выявило ни одной модели, которая бы выделялась на фоне других.

"В частности, производительность всех моделей снижается [даже] при изменении только числовых значений в вопросе в бенчмарке GSM-Symbolic"

заключили авторы исследования, также обнаружив, что

"хрупкость математических рассуждений в этих моделях [демонстрирует], что их производительность значительно ухудшается по мере увеличения количества пунктов в вопросе"

Исследование, состоящее из 22 страниц, можно найти на сайте здесь (файл PDF). Последние две страницы содержат задачи, в конце которых добавлена некоторая нерелевантная информация, которая не должна изменить конечный результат для человека, решающего задачу. Однако используемые модели ИИ учитывают и эти части, выдавая неверные ответы.

В заключение можно сказать, что модели ИИ все еще не могут выйти за рамки распознавания образов и им все еще не хватает обобщенных возможностей решения задач. В этом году было представлено довольно много LLM, включая Meta AI's Llama 3.1, Nvidia's Nemotron-4, Anthropic's Claude 3, японский Fugaku-LLM (самая большая модель, когда-либо обучавшаяся исключительно на мощности процессора), и Novaот Rubik's AI, семейство LLM, которое было представлено ранее в этом месяце.

Завтра O'Reilly выпустит первое издание книги Hands-On Large Language Models: Понимание и генерирование языка", авторами которой являются Джей Аламмар и Маартен Гроотендорст. Его ценник составляет $48,99 (Kindle) или $59,13 (в мягкой обложке).

Источник(и)

Этот важный материал точно понравится твоим друзьям в социальных сетях!
Mail Logo
'
> Обзоры Ноутбуков, Смартфонов, Планшетов. Тесты и Новости > Новости > Архив новостей > Архив новостей за 2024 год, 10 месяц > Люди могут легко превзойти искусственный интеллект, согласно исследованию, финансируемому Apple
Codrut Nistor, 2024-10-14 (Update: 2024-10-14)