Люди могут легко превзойти искусственный интеллект, согласно исследованию, финансируемому Apple

Люди против ИИ (Источник изображения: сгенерировано с помощью DALL-E 3)

Несмотря на то, что они часто показывают впечатляющие результаты, движкам ИИ, таким как Meta и OpenAI, использующим большие языковые модели, все еще не хватает базовых возможностей рассуждения. Группа, поддерживаемая сайтом Apple, предложила новый эталон, который уже показал, что даже малейшие изменения формулировок в запросе могут привести к совершенно разным ответам.

Codrut Nistor (перевод Ninh Duy), Опубликовано 14 October 2024 🇺🇸 🇩🇪 ...

AI Наука кринж и фэйспалм

Ранее в этом месяце команда из шести ученых в области ИИ при поддержке Apple опубликовала исследование, в котором они представили GSM-Symbolic, новый эталон ИИ, который "позволяет проводить более контролируемые оценки, предоставляя ключевые идеи и более надежные метрики для измерения способности моделей к рассуждению" К сожалению, похоже, что LLM все еще сильно ограничены и им не хватает самых базовых возможностей рассуждения, показали первые тесты, проведенные с помощью GSM-Symbolic с движками ИИ от таких икон индустрии, как Meta и OpenAI.

Проблема существующих моделей, как показали вышеупомянутые тесты, заключается в недостаточной надежности LLM при выполнении аналогичных запросов. Исследование пришло к выводу, что незначительные изменения формулировок, которые не изменили бы смысл запроса для человека, часто приводят к другим ответам от ботов ИИ. Исследование не выявило ни одной модели, которая бы выделялась на фоне других.

"В частности, производительность всех моделей снижается [даже] при изменении только числовых значений в вопросе в бенчмарке GSM-Symbolic"

заключили авторы исследования, также обнаружив, что

"хрупкость математических рассуждений в этих моделях [демонстрирует], что их производительность значительно ухудшается по мере увеличения количества пунктов в вопросе"

Исследование, состоящее из 22 страниц, можно найти на сайте здесь (файл PDF). Последние две страницы содержат задачи, в конце которых добавлена некоторая нерелевантная информация, которая не должна изменить конечный результат для человека, решающего задачу. Однако используемые модели ИИ учитывают и эти части, выдавая неверные ответы.

В заключение можно сказать, что модели ИИ все еще не могут выйти за рамки распознавания образов и им все еще не хватает обобщенных возможностей решения задач. В этом году было представлено довольно много LLM, включая Meta AI's Llama 3.1, Nvidia's Nemotron-4, Anthropic's Claude 3, японский Fugaku-LLM (самая большая модель, когда-либо обучавшаяся исключительно на мощности процессора), и Novaот Rubik's AI, семейство LLM, которое было представлено ранее в этом месяце.

Завтра O'Reilly выпустит первое издание книги Hands-On Large Language Models: Понимание и генерирование языка", авторами которой являются Джей Аламмар и Маартен Гроотендорст. Его ценник составляет $48,99 (Kindle) или $59,13 (в мягкой обложке).

Источник(и)

AppleInsider

Ещё по теме

OnePlus 13, очевидно, будет оснащен собственной флагманской процессорной системой Snapdragon SoC (Источник изображения: Qualcomm)

Пользовательский чип Snapdragon в OnePlus 13, похоже, выигрывает по эффективности у Apple A18 Pro 14 October 2024

Apple Автомобили больше не нужны - Tesla представляет роботакси (Источник изображения: Tesla)

Apple Разрешения на продажу автомобилей были отменены незадолго до презентации автономного Robotaxi от Tesla 13 October 2024

Galaxy S25 FE вполне может стать более тонкой альтернативой Apple iPhone 17 Air от Samsung. (Источник изображения: Samsung)

Samsung Galaxy S25 FE: Уменьшенная модель для конкуренции с Apple'iPhone 17 Air 13 October 2024

Apple объявляет Swift Student Challenge 2025 для студентов-программистов, которые могут продемонстрировать свою изобретательность в области приложений и выиграть призыв Apple. (Источник изображения: Apple)

Apple swift Student Challenge 2025 объявляется для студентов-программистов, которые могут продемонстрировать свою изобретательность в области приложений и выиграть призыв Apple 10 October 2024

Appleпоследние модели iPad 'Pro' продаются хуже, чем ожидалось. (Источник изображения: Apple)

Аналитики представили неутешительный отчет о популярности нового Apple iPad Pro 10 October 2024

Steam Deck получит легкий доступ к ...

Спецификации камеры и "эксклюзивный...

Автор исходного текста: Codrut Nistor - Senior Tech Writer - 6676 статей на Notebookcheck c 2013 года

contact me via: @online_digi, online.digital.craft, LinkedIn

Автор перевода: Нин Нгок Дуй (Ninh Ngoc Duy) - Помощник редакции - 521685 статей на Notebookcheck c 2008 года

Будучи помощником редакции, я отвечаю за пополнение нашей Библиотеки, в которой собраны обзоры с самых разных сторонних порталов. Помимо этого, каждый день я выбираю наиболее интересные материалы Notebookcheck для их последующего перевода на французский, испанский, португальский, нидерландский и другие языки.

contact me via: Facebook

Этот важный материал точно понравится твоим друзьям в социальных сетях!