Приветствую, гики и любители технологий! С вами TechLoot, и сегодня мы погрузимся в мир, где искусственный интеллект перестает быть уделом избранных и становится доступным каждому. Забудьте о многомиллионных бюджетах и гигабайтах данных, которые раньше были пропуском в клуб создателей мощных языковых моделей. Мы на пороге революции, которая перевернет представление о том, как обучаются LLM, и сделает ИИ по-настоящему демократичным. Готовы? Тогда поехали!
Революция в обучении LLM: HRM-Text от Sapient
Обучение фундаментальной большой языковой модели (LLM) с нуля обычно обходится в миллионы долларов и требует данных интернет-масштаба — именно поэтому большинство предприятий даже не пытаются этим заниматься. Компания Sapient считает, что нашла более дешевый путь.
Чтобы преодолеть эту догму грубого масштабирования, исследователи из Sapient разработали HRM-Text, который заменяет стандартные Трансформеры высокоэффективной иерархической рекуррентной моделью (HRM) — архитектурой, которую они впервые представили в прошлом году.
HRM разделяет вычисления на медленно развивающиеся стратегические и быстро развивающиеся исполнительные слои. Вместо грубого авторегрессионного предсказания по необработанному тексту, HRM-Text обучается исключительно на парах «инструкция-ответ». Это близко к реальным корпоративным условиям, где пользователи обычно ожидают целенаправленный ответ на конкретную задачу.
Исследователи смогли обучить HRM-Text с 1 миллиардом параметров с нуля за долю стоимости и с меньшим количеством токенов по сравнению с обычными LLM. Их модель достигла производительности, сопоставимой с гораздо более крупными открытыми моделями по ключевым отраслевым бенчмаркам.
Для реальных приложений ИИ это означает, что фундаментальное предварительное обучение больше не ограничивается учреждениями с большими ресурсами. С помощью HRM-Text организации могут недорого предварительно обучать свои собственные высокопроизводительные модели рассуждений с нуля и сочетать их с внешними хранилищами знаний.
Узкое место в обучении
Когда мы обучаем LLM, нам на самом деле не важно, запомнила ли она точную последовательность слов в случайной ветке Reddit 2014 года. Мы хотим, чтобы модель развила глубокое, лежащее в основе понимание человеческого языка, логики, фактов и рассуждений.
Нынешний подход — это грубая сила: парсить интернет, выполнять предсказание следующего токена триллионы раз и предполагать, что модель разработала рабочую внутреннюю модель мира.
По сути, это означает, что мы тратим миллионы долларов вычислительной мощности, заставляя модели запоминать все, что было собрано из интернета, просто для того, чтобы они могли косвенно научиться мыслить. Например, стандартные модели только с декодером тратят ценные вычисления на назначение потерь для восстановления самого запроса, хотя запрос пользователя уже известен и предоставляется во время инференса.
Вместо того, чтобы просто рассматривать это как вычислительное препятствие, отрасль должна признать это серьезным бизнес-ограничением. В комментариях, предоставленных VentureBeat, Гуань Ван, генеральный директор Sapient Intelligence, охарактеризовал это как проблему «экономики итераций».
«Предприятия сегодня сталкиваются с тремя усугубляющимися проблемами: обучение дорого, инфраструктура тяжелая, а циклы экспериментов слишком медленные», — сказал Ван. «Зависимость отрасли от масштабирования гласит: «Когда модель терпит неудачу, сделай ее больше. Добавь больше данных. Добавь больше графических процессоров». Это работало, но достигает точки убывающей отдачи. Больший масштаб часто означает больше запоминания, больше задержки, больше инфраструктуры и больше зависимости от поставщика. Это не обязательно дает предприятию лучший механизм рассуждений».
Именно эта архитектурная и вычислительная неэффективность является причиной того, что тонкая настройка существующих плотных трансформеров не всегда является панацеей для предприятий. Тонкая настройка для сохранения общих возможностей модели часто требует смешивания значительных объемов данных общего назначения в процесс, что делает его вычислительно тяжелым и трудным для контроля.
«Представьте себе хедж-фонд, страховщика или банк, у которого есть высокопроприетарные данные: внутренние исследовательские заметки, логика транзакций, правила соответствия, аналитические записки, модели рисков, ограничения портфеля», — сказал Ван. «Они могут не захотеть отправлять эти данные во внешнюю пограничную модель, и им может не понадобиться гигантская универсальная модель, которая запомнила весь интернет. Им нужно компактное ядро рассуждений, которое может изучать структуру их задач, рассуждать о правилах и числах и работать в контролируемой среде».
Поскольку HRM-Text строго фокусирует свои вычисления на выполнении задач и скрытых рассуждениях, это позволяет предприятиям начинать с меньшей, более умной модели и адаптировать ее к проприетарной области с гораздо меньшей инфраструктурой.
Переосмысление архитектур с HRM-Text
HRM, представленная в 2025 году, представляет собой фундаментальное отступление от традиционных моделей Трансформеров. Чтобы создать более эффективный с точки зрения выборки движок, HRM разделяет вычисления на медленно развивающиеся стратегические и быстро развивающиеся исполнительные слои. Быстрый L-модуль выполняет локальное итеративное уточнение, в то время как медленный H-модуль поддерживает стабильный семантический контекст на протяжении циклов. Обработка состоит из двух высокоуровневых циклов, где каждый цикл выполняет три быстрых обновления L-модуля, за которыми следует одно медленное обновление H-модуля.
Стандартные рекуррентные архитектуры с общими параметрами (например, TRM от Samsung) иногда могут справляться с небольшими логическими головоломками, но исследователи Sapient обнаружили, что они становятся крайне нестабильными при масштабировании до 1 миллиарда параметров для языковых задач. Разделение между медленным H-модулем и быстрым L-модулем HRM математически необходимо, а не просто эстетический выбор. Как сказал Ван: «Для логических сеток иногда можно обойтись крошечным рекурсивным механизмом, потому что мир чист и ограничен. Язык не такой. Язык нуждается как в быстром локальном уточнении, так и в медленной семантической стабильности».
Хотя исходная HRM оказалась очень эффективной для контролируемых, символических задач рассуждения, исследователи столкнулись с проблемой при ее применении к массивным, открытым сложностям обобщенного языкового моделирования. В то время как циклы HRM делают ее невероятно эффективным мыслителем, те же самые циклы делают ее математически нестабильной для обучения на разнообразном хаосе человеческого языка. Запуск рекуррентных циклов на языке создает огромную математическую нестабильность, в частности, взрывающиеся или исчезающие градиенты.
Чтобы предотвратить эту обратную связь в нейронной сети, исследователи внедрили два ключевых архитектурных новшества в HRM-Text. Во-первых, они разработали MagicNorm, специализированную технику нормализации, разработанную специально для поддержания стабильности внутренних сигналов, независимо от того, сколько раз модель зацикливает свой мыслительный процесс.
Во-вторых, они разработали метод разогрева для стабилизации обучения. На ранних этапах обучения модель оценивается только на коротких, неглубоких логических циклах. По мере продолжения обучения система разогревается, постепенно предоставляя модели более глубокие и длинные последовательности рассуждений.
Они также изменили цель обучения с предсказания следующего токена на завершение задачи, где модель вознаграждается только за полный ответ, а не за отдельные генерируемые токены. Для достижения этой цели они изменили обучающие данные HRM-Text с необработанного текста только на пары «инструкция-ответ».
HRM-Text в действии
Исследователи создали очень компактную модель HRM-Text с 1 миллиардом параметров. Вместо использования стандартного многоступенчатого конвейера, который требует обработки триллионов слов необработанного интернет-текста, они обучили ее с нуля на тщательно отобранном наборе данных объемом всего 40 миллиардов токенов. Обучающие данные состояли исключительно из пар «инструкция-ответ» по общим инструкциям, математике, символической логике, упражнениям из учебников и переписанным знаниям.
Они обучили модель с целью завершения задачи. Чтобы заставить модель полагаться на свою внутреннюю иерархическую архитектуру, а не копировать пошаговую логику, они явно удалили токены «мышления» из обучающих данных.
Модель была оценена по разнообразному набору стандартных фундаментальных бенчмарков ИИ, сильно ориентированных на знания, рассуждения, логику, математику и понимание. Исследователи протестировали HRM-Text как против небольших моделей, так и против высокоресурсных открытых и полностью открытых моделей.
Результаты показывают значительный сдвиг в соотношении вычислительной мощности и производительности. HRM-Text с 1 миллиардом параметров достиг 60,7% по MMLU, 84,5% по GSM8K и 56,2% по MATH. Эта производительность весьма конкурентоспособна (и в некоторых случаях превосходит) с моделями с 2-7 миллиардами параметров, с которыми она сравнивалась.
Самый важный вывод для корпоративной аудитории заключается в статистике эффективности и практических последствиях. Предварительное обучение фундаментальной модели с нуля обычно является многомиллионным проектом, предназначенным для технологических гигантов. HRM-Text был обучен всего за 1,9 дня на кластере из 16 графических процессоров. Общая оценочная стоимость вычислений составила примерно 1500 долларов. Он достиг своих конкурентоспособных результатов, используя в 100-900 раз меньше обучающих токенов и в 96-432 раза меньше оценочных вычислений, чем такие модели, как Qwen, Gemma и Llama.
Еще один важный момент — это разделение рассуждений и запоминания знаний. С практической точки зрения, успех HRM-Text в задачах, требующих интенсивных рассуждений, несмотря на его крошечную обучающую диету в 40 миллиардов токенов, доказывает, что модели не нужно запоминать весь интернет, чтобы стать умным механизмом рассуждений.
Для корпоративных приложений такое поведение является особенностью, а не ошибкой. Исследователи предполагают будущее, в котором предприятия будут развертывать очень компактные, невероятно дешевые рекуррентные модели, которые действуют как «ядро рассуждений», специализированное для бизнес-логики. Вместо того, чтобы заставлять модель запоминать корпоративные базы данных во время предварительного обучения, модель действует как механизм рассуждений, полагаясь на внешние системы извлечения для получения фактических знаний.
Критики указывали, что обучение на парах «инструкция-ответ» делает сравнения с моделями, обученными на необработанном тексте, сценарием «яблоки и апельсины». Ван отвергает эту формулировку, указывая, что каждая серьезная современная LLM видит данные «инструкция-ответ» во время обучения или выравнивания. «Так что сравнение не «яблоки и апельсины». Это ближе к «сердцевинам яблок и яблокам». Мы начали непосредственно с основного формата задачи, потому что именно так люди на самом деле используют модели: они дают инструкцию и ожидают полезный ответ», — сказал он.
Исследователи также провели строгие тесты на загрязнение, чтобы убедиться, что модель не просто запоминала ответы на бенчмарки. На DROP, единственном бенчмарке, показывающем незначительный сигнал загрязнения при определенных условиях, HRM-Text все же набрал впечатляющие 81,1% на строго чистом подмножестве с 0% загрязнения.
В конечном итоге, Ван утверждает, что для предприятий «правильная оценка — это не запоминание мелочей. Это оценка рабочего процесса... Дайте HRM-Text такую задачу, как: многоступенчатое финансовое рассуждение, логика соответствия, автоматизация научного рабочего процесса, структурированное извлечение с последующим рассуждением».
Практическая реализация и будущее корпоративного ИИ
Хотя показатели бенчмарков и экономия затрат поразительны, Sapient четко заявляет о текущих границах модели. Первоначальный выпуск следует рассматривать как доказательство концепции, сродни ранним выпускам GPT, предназначенный для демонстрации уникальных преимуществ архитектуры.
«Честно говоря, HRM-Text пока не является заменой ChatGPT по принципу «подключи и работай», — сказал Ван. «Это компактная фундаментальная модель языкового рассуждения. Для команды инженеров предприятия операционная работа в основном связана с шаблонами, выбором режима, маскированием внимания и выравниванием».
Для инженерных команд ИИ, желающих экспериментировать, начало работы требует определенной, но стандартной дисциплины генерации текста. Модель поддерживает нативную поддержку в библиотеке Transformers (требуется transformers >= 5.9.0), и пути использования для vLLM и SGLang активно разрабатываются. Основная инженерная задача включает управление дизайном PrefixLM: производственные многоходовые чат-приложения потребуют тщательной логики KV-кэша, чтобы обеспечить полное двунаправленное внимание к запросам пользователя, в то время как выводы помощника остаются причинными.
«Когда стоимость обучения способной модели рассуждений падает примерно до 1500 долларов, ИИ перестает быть только вопросом инфраструктуры и становится вопросом стратегии», — сказал Ван. «Компания из списка Fortune 500 больше не должна спрашивать: «Можем ли мы позволить себе фундаментальную модель?» Она будет спрашивать: «Что должна знать наша модель о нашем бизнесе, и для какого типа рассуждений она должна быть оптимизирована?»