Люди могут легко превзойти искусственный интеллект, согласно исследованию, финансируемому Apple
Ранее в этом месяце команда из шести ученых в области ИИ при поддержке Apple опубликовала исследование, в котором они представили GSM-Symbolic, новый эталон ИИ, который "позволяет проводить более контролируемые оценки, предоставляя ключевые идеи и более надежные метрики для измерения способности моделей к рассуждению" К сожалению, похоже, что LLM все еще сильно ограничены и им не хватает самых базовых возможностей рассуждения, показали первые тесты, проведенные с помощью GSM-Symbolic с движками ИИ от таких икон индустрии, как Meta и OpenAI.
Проблема существующих моделей, как показали вышеупомянутые тесты, заключается в недостаточной надежности LLM при выполнении аналогичных запросов. Исследование пришло к выводу, что незначительные изменения формулировок, которые не изменили бы смысл запроса для человека, часто приводят к другим ответам от ботов ИИ. Исследование не выявило ни одной модели, которая бы выделялась на фоне других.
"В частности, производительность всех моделей снижается [даже] при изменении только числовых значений в вопросе в бенчмарке GSM-Symbolic"
заключили авторы исследования, также обнаружив, что
"хрупкость математических рассуждений в этих моделях [демонстрирует], что их производительность значительно ухудшается по мере увеличения количества пунктов в вопросе"
Исследование, состоящее из 22 страниц, можно найти на сайте здесь (файл PDF). Последние две страницы содержат задачи, в конце которых добавлена некоторая нерелевантная информация, которая не должна изменить конечный результат для человека, решающего задачу. Однако используемые модели ИИ учитывают и эти части, выдавая неверные ответы.
В заключение можно сказать, что модели ИИ все еще не могут выйти за рамки распознавания образов и им все еще не хватает обобщенных возможностей решения задач. В этом году было представлено довольно много LLM, включая Meta AI's Llama 3.1, Nvidia's Nemotron-4, Anthropic's Claude 3, японский Fugaku-LLM (самая большая модель, когда-либо обучавшаяся исключительно на мощности процессора), и Novaот Rubik's AI, семейство LLM, которое было представлено ранее в этом месяце.
Завтра O'Reilly выпустит первое издание книги Hands-On Large Language Models: Понимание и генерирование языка", авторами которой являются Джей Аламмар и Маартен Гроотендорст. Его ценник составляет $48,99 (Kindle) или $59,13 (в мягкой обложке).