В наши дни большие языковые модели способны справляться со все более сложными задачами, писать сложный код и применять изощренные рассуждения. Но когда дело доходит до умножения четырехзначных чисел, задачи, изучаемой в начальной школе, даже самые современные системы терпят неудачу. Почему? В новой статье, опубликованной на препринт-сервере arXiv аспирантом факультета компьютерных наук Чикагского университета Сяоянем Баем и соруководителем
исследовательской инициативы по новым интеллектуальным решениям Института науки о данных Ченхао Таном, ответы находятся путем обратного проектирования неудач и успехов. Они работали в сотрудничестве с коллегами из Массачусетского технологического института, Гарвардского университета, Университета Ватерлоо и Google DeepMind, чтобы исследовать « неровные границы » искусственного интеллекта —
термин, обозначающий его способность преуспевать в сложных рассуждениях, но при этом спотыкаться на, казалось бы, простых задачах. Как вы, возможно, помните (или забыли), умножение больших чисел требует переноса цифр и мысленного «удержания» частичных произведений, чтобы затем сложить их и
получить итоговую сумму. Процессы, требующие хранения информации для последующего использования таким образом, называются «дальними зависимостями». Стандартные большие языковые модели работают, обучаясь распознавать закономерности в данных, на которых они обучаются. Но чем сложнее задача, тем меньше вероятность того,
что модель её конкретно обнаружила. Так как же научить модель не просто запоминать ответы, а осваивать процесс? Почему стандартное обучение терпит неудачу Модели часто обучаются новым задачам с помощью процесса, известного как стандартная тонкая настройка, который основан на масштабировании
обучающих данных или добавлении дополнительных шагов или «слоев». Но даже когда исследовательская группа тестировала модели с двумя слоями и до 12 слоями, все они показали точность менее 1% при умножении двух четырехзначных чисел. Стандартные подходы явно не справлялись, и исследователи хотели понять,
почему. Они обнаружили, что при стандартном подходе модели сходятся к «локальному оптимуму», или тому, что они определяют как наилучшее решение в каждом наборе данных. Но такие задачи, как умножение многозначных чисел, требуют от модели способности запоминать предыдущие вычисления при одновременном получении последующих цифр. Без архитектуры,
способной хранить и извлекать промежуточную информацию, модель застревает, не в силах выйти за пределы локального оптимума — независимо от того, как долго она обучается или насколько масштабируется. Далее исследователи выявили модель, обученную с использованием другого метода: неявной цепочки мыслей (ICoT). В то время как стандартная тонкая
настройка давала точность менее 1%, модель ICoT смогла достичь 100% точности. Чтобы понять, чем этот подход отличается, команда проанализировала оба варианта и выявила ряд фундаментальных закономерностей. Во-первых, они увидели, что модель ICoT учится запоминать то, что действительно важно. В отличие от стандартной модели тонкой настройки, модель ICoT научилась отслеживать эти
долгосрочные зависимости, или информацию, которую она постепенно собирала для решения задачи. Команда проверила это, протестировав, могут ли они расшифровать промежуточные значения, такие как текущие суммы, из внутренних состояний модели. В модели ICoT они могли это сделать, а в стандартной модели — нет. Метод ICoT постепенно исключает промежуточные этапы рассуждений в процессе обучения, в некотором смысле заставляя модель усваивать процесс
рассуждений в своих скрытых состояниях, а не полагаться на явные пошаговые токены. Далее они увидели, что модель ICoT организует свое внимание по различным путям во времени. Представьте это как хорошо организованную систему хранения данных: на ранних уровнях модель вычисляет произведения пар цифр и сохраняет их в определенных местах. На более
поздних уровнях она извлекает именно те значения, которые необходимы для вычисления каждой цифры окончательного ответа. В результате получается эффективная внутренняя структура для выполнения умножения, которая никогда не возникает в стандартной модели. Наконец, и, пожалуй, самое примечательное, исследователи обнаружили, что модель ICoT внутренне представляет эти операции с помощью элегантных структур. Вместо того чтобы рассматривать цифры только как
символы, модель кодирует их в виде волнообразных паттернов, известных как базисы Фурье, и организует свои арифметические операции визуальным, пространственным способом. При умножении пар цифр модель использует естественную геометрическую операцию, называемую суммой Минковского — операцию, которую исследователи не программировали, а которая возникла естественным образом в процессе обучения модели ICoT. Как будто успешная модель вывела свой собственный эффективный
математический язык для арифметических операций. Простое решение Исследователи предположили, что если стандартные модели тонкой настройки терпят неудачу из-за отсутствия необходимых встроенных указаний, то предоставление правильного обучающего сигнала должно это исправить. Для проверки этого команда предложила простое решение: дополнительную обучающую цель, которая учит модель отслеживать
текущие суммы на каждом шаге, позволяя ей переносить промежуточные значения и частичные произведения. Оказалось, что добавление всего одного элемента к двухслойной модели, которая полностью провалилась при стандартном обучении, решило проблему. Результат: 99% точности без явного контроля за цепочкой рассуждений. Изучив модели паттерны внимания,
исследователи обнаружили, что она освоила механизмы, аналогичные механизмам ICoT, — структуры, которые хранят и извлекают частичные результаты по мере необходимости. Модель также разработала дополнительные стратегии, включая способ отслеживания нескольких пар цифр одновременно. Новый интеллект Хотя умножение может показаться специфическим видом задачи, полученные результаты освещают фундаментальные аспекты того, как большие языковые модели учатся и
«думают». Проблема зависимости на больших расстояниях не уникальна для арифметики — она встречается во всем языковом моделировании и других задачах последовательного выполнения. Подход команды из Чикагского университета задает фундаментальные вопросы о различиях между запоминанием и обучением, а
также о том, какие архитектурные ограничения способствуют или препятствуют производительности моделей. «Поскольку искусственный интеллект все больше интегрируется в процессы принятия важных решений, крайне важно понимать его уникальные способы обучения и мышления», — сказал Тан. «Наше исследование направлено на изучение этой области».
Основной вклад этой статьи: архитектурные решения и методы обучения могут преодолеть препятствия, которые невозможно устранить одним лишь масштабированием. Ключ к развитию возможностей ИИ — это правильное встроенное руководство, а не просто дополнительные параметры или данные. Хотя
решение проблемы умножения зависит от конкретной задачи, исследователи предполагают, что в будущих работах будут разработаны более общие подходы к улучшению обучения в задачах, требующих от моделей отслеживания информации на протяжении многих этапов.
Сообщает android-robot.com
Новость из рубрики: Интернет
Поделиться новостью:
Топ Новости Недели
- Комплексное оснащение лабораторий как основа точных решений и устойчивого развития...
- Фасадный декор из композитных материалов...
- Искусство меткости: спортивные страйкбольные пистолеты...
- СПАС - гармония здоровья и эстетики улыбки...
- Искусство мужского стиля - сумки...
- Доходность гостиничного бизнеса...
- Искусство цифрового роста - создание и продвижение сайтов с SEORA...
- Компрессоры ЗИФ от ОАО МЗ "Арсенал"...
- Смартфоны и телефоны в интернет-магазине DiCENTRE...
- Пересадка волос как точка перезагрузки внешности и уверенности...
- Онлайн кассы - новая философия торговли...
- Щиты автоматического ввода резерва...
- Олимпиадная физика МФТИ: территория мысли где рождаются чемпионы...
- Профессиональный ремонт сварочных инверторов...
- Модульные школы - архитектура будущего образования уже сегодня...
- Диплом без хаоса и дедлайнов: профессиональная поддержка студентов ЧГИК в Челябинске...
- Ядовитая посуда для детского онкоцентра...
- Studentu24.ru – современный онлайн сервис поддержки студентов...
- DOM Contenta - пространство для подкастов нового уровня...
- Новые горизонты - Школьные экскурсии с клубом МАРШРУТЫ...
11:17, 03 Фев Microsoft переходит к модели, ориентированной на сообщество, для масштабирования инфраструктуры искусственного интеллекта В Microsoft заявили, что будущие центры обработки данных для ИИ будут полностью покрывать расходы на электроэнергию и инфраструктуру, уделяя приорите...
19:17, 01 Фев Бывшего инженера Google осудили за передачу секретов искусственного интеллекта Китаю — 11 месяцев он копировал конфиденциальные данные в «Заметки» на своем MacBook Федеральный суд Сан-Франциско вынес обвинительный приговор бывшему инженеру Google Линьвэю Дину, признав его виновным в масштабном хищении конфиденци...
00:17, 01 Фев Amazon нашла запрещённый контент с участием детей в данных для обучения ИИ Amazon обнаружила большое количество незаконных материалов с участием детей в данных, которые использовались для обучения её ИИ. Об этом говорится в ...
17:17, 06 Фев Стюардесса поделилась: каких мест в самолёте следует избегать любой ценой - на этих местах пассажиры не отдыхают, а испытывают дискомфорт Прогород Есть в самолетах такие места, где пассажиры не отдыхают, а испытывают настоящий дискомфорт. Об этом без утайки рассказывают стюардессы, года...
13:17, 02 Фев xAI нанимает известных писателей для обучения чат-бота Grok после череды скандалов xAI разместила вакансию, предлагающую писателям в различных жанрах — от медицинской документации до журналистики — оценивать, улучшать и создавать те...
07:09, 27 Янв Haval Jolion: основные характеристики модели Согласно статистике, сегодня в лидерские позиции на автомобильном рынке в нашей стране выходят «китайцы». Китайские авто пользуются большой популярно...
02:17, 29 Янв Бесплатный курс по модели Po3 из 5 видео уроков Сегодня представляю вам Бесплатный курс по модели Po3 из 5 видео уроков. Её еще называют: Power of Three / Power of 3 / модель AMD / pattern AMD. Уже...
08:17, 29 Янв Бренд Jetta не планирует выводить новые модели в РФ В 2026 году бренд Jetta направит основные усилия на поддержку текущей модельной гаммы в России, а не на запуск новых моделей. Об этом сообщил предста...
19:17, 01 Фев Лучшие модели роботов-пылесосов: рейтинг 2026 Тренд последнего времени — автоматизация многих домашних работ, в том числе уборки. Современные технологии позволили роботам-пылесосам стать намного ...
15:17, 27 Янв В России выросла популярность BMW — названы лучшие модели В России набирает былую популярность не только марка Volkswagen, но и более дорогие «немцы»: в 2025 году в страну было ввезено 64 тысячи автомобилей ...
12:17, 06 Фев Три новых модели Changan появятся в России в 2026 году В список новинок вошли совершенно новый кроссовер CS35 Max, обновленный Uni-S и модификация CS75 Pro. Первым станет Changan CS35 Max — модель, превос...
02:17, 04 Фев Новые Hyundai по-прежнему можно купить в РФ: модели и цены Новые автомобили Hyundai по-прежнему доступны в российских автосалонах, хотя сам корейский автопроизводитель давно свернул здесь свою деятельность. З...
11:17, 08 Фев Что скрывают масштабные модели — как собрать крутой гараж на полке Решили начать собирать коллекцию или сделать интересный подарок? Давайте посмотрим, из чего же выбирать и на что обратить внимание. Масштабы бывают р...
14:17, 03 Фев Toyota представит большой трехрядный внедорожник на замену модели Highlander Полноценная премьера запланирована на 10 февраля 2026 года. Carscoops опубликовал первые изображения модели. На кадрах видна конфигурация салона на ш...
22:17, 03 Фев Apple намекнула на повышение цен на iPhone: какие модели под угрозой подорожания Apple все чаще оказываются в ситуации, когда привычная стратегия проглотить рост себестоимости и не злить покупателей начинает давать трещины. На пос...
13:17, 28 Янв Артефакт из Эфиопии поставил под сомнение старые модели эволюции человека Археологические находки в Восточной Африке дали новые данные о ранних этапах эволюции человека. В Эфиопии, в районе Ворансо-Милле, исследователи обна...
22:17, 03 Фев Как включить пространственное звучание на AirPods и какие модели наушников его поддерживают Прелесть беспроводных наушников Apple не только в их автономности и качестве звучания. В каждом эйрподсе находится полноценный микрокомпьютер, которы...
21:17, 27 Янв Распродажа колонок Tronsmart на OZON: 3 интересные модели на любой вкус и кошелек Tronsmart, один из ведущих производителей беспроводных колонок, проводит распродажу своих гаджетов на OZON. Для тех, кто любит слушать музыку и хочет...
17:17, 07 Фев На шаг впереди: голосовой бот решает более 80% вопросов клиентов «Ростелекома» с помощью предиктивной модели «Ростелеком» внедрил в голосовой бот новую предиктивную модель, благодаря которой он в четырех из пяти случаев предугадывает тему обращения и автомат...
23:17, 06 Фев Посмотрите на Galaxy Buds4 и Buds4 Pro. Samsung снова готовит две модели наушников В сети появились официальные рендеры Galaxy Buds4 и Galaxy Buds4 Pro. Ожидается, что Samsung покажет наушники вместе с линейкой Galaxy S26 уже в конц...
13:17, 02 Фев Samsung делает ставку на Galaxy S26 Ultra: почти 75% первой партии новых флагманов Samsung придется именно на долю модели Ultra Компания Samsung радикально пересмотрела стратегию запуска своей новой флагманской линейки. Согласно данным инсайдера Ice Universe, корейский гигант ...