«Данные закончились» — это про одну ось из шести. Пять остальных работают. Одномерные прогнозы — мусор.
Зайдите в любой айтишный-чат.
«Из архитектуры выжали всё». «Данные закончились». «Модели будут деградировать».
Звучит умно. Проблема? Это полная ерунда.
Не потому что эти люди глупы. Часто это крутые разработчики. Проблема в том, что они видят одну ось — supervised pre-training на интернет-текстах — и думают, что это весь AI.
Ось упёрлась? Значит, AI упёрся.
Нет. Не значит.
2012 год.
Кто-то говорит: «Мы собрали все фотографии кошек в интернете. Нейросети достигли потолка».
Технически верно. Для той парадигмы — да, потолок.
Как прогноз? Катастрофически неверно.
Через год — AlexNet. И понеслось.
То же самое сейчас. «Данные закончились» = «качественные тексты для supervised pre-training закончились».
Это правда.
Но это одна ось из шести.
Начнём с того, о чём все кричат.
Scaling laws Каплана (2020): больше данных + больше compute = лучше модель. Красивая формула. Работала отлично.
До определённого момента.
Что сейчас:
Качественного текста в интернете ~15-20 трлн токенов
Большую часть уже скормили моделям
Diminishing returns
Но это не конец.
Data scaling трансформируется:
Синтетические данные — модели генерят данные для себя и других
Мультимодальность — видео, аудио, сенсоры. Триллионы нетронутых токенов
Специализированные корпуса — медицина, юриспруденция, наука
Текст в интернете — это не все данные в мире. Даже близко.
Окей, смотрите.
Все говорят «compute scaling» как будто это одна штука.
Это две штуки.
Классика: больше GPU × больше времени = умнее модель.
GPT-4 стоил ~$100M. Следующие поколения — миллиарды.
Да, тут экономический и физический потолок виден.
Это прорыв 2024 года. И почти все его пропустили.
Вместо того чтобы делать модель умнее при обучении — даём ей больше времени «думать» при ответе.
Серия o1/o3 от OpenAI: та же базовая модель решает задачи разной сложности с разным бюджетом на reasoning.
Результат? 30-50% прироста на сложных задачах. Без изменения весов.
Это как разница между «выучил формулу» и «имею время подумать».
Две разные оси. Обе работают. Независимо.
Каждый год модели становятся эффективнее при том же compute.
История:
2017: Transformer убил RNN/LSTM — прорыв в параллелизации
2020: Sparse attention — квадратичная сложность идёт лесом
2022: FlashAttention — 2-4x ускорение, качество то же
2023: Mixture of Experts — масштабируем параметры без линейного роста compute
Что дальше:
State Space Models (Mamba) — линейная сложность для длинных контекстов
Гибриды Transformer + SSM
Новые механизмы внимания
Эмпирика: каждые 1-2 года архитектурные улучшения = эквивалент 2-3x compute при тех же затратах.
Это прекрасно.
Вот что важно понять.
Текущие LLM обучены на тексте. Но информация существует не только в тексте.
|
Модальность |
Объём |
Статус |
|---|---|---|
|
Текст |
~20 трлн токенов |
80%+ использовано |
|
Изображения |
~1 трлн+ |
Активно осваивается |
|
Видео |
Эксабайты |
Начальная стадия |
|
Аудио |
Петабайты |
Частично |
|
3D/пространственные |
Терабайты |
Ранняя стадия |
|
Сенсорные данные |
∞ |
Не начато |
GPT-4V, Gemini, Claude 3 — первые шаги.
Следующий рубеж — embodied AI: модели учатся через взаимодействие с физическим или симулированным миром.
Данные, которые невозможно получить из интернета. Принципиально новый тип информации.
Параметрическое знание (то, что зашито в веса) — это тупик.
Устаревает с момента обучения
Ограничено размером модели
Галлюцинации
Tool use — это решение.
Модель не пытается знать всё. Модель умеет использовать инструменты:
Поиск — актуальная информация
Калькулятор/код — точные вычисления
API — внешние системы
Базы данных — структурированные знания
Другие модели — специализированные агенты
Практический пример: Claude с доступом к поиску не нужно переобучать, чтобы он знал результаты вчерашних выборов.
Это фундаментальный сдвиг в том, что значит «умная модель».
Агентные системы идут дальше: декомпозиция задачи → планирование → выполнение → проверка.
Отдельное измерение capabilities. Ортогональное к «сырому интеллекту».
Supervised learning на человеческих данных — не единственный способ.
RLHF:
Модель улучшается через обратную связь, а не через примеры. Оптимизирует поведение, которое сложно показать явно.
Self-play и synthetic data:
DeepSeek-R1 показал: модель может улучшать reasoning через самостоятельную генерацию и фильтрацию цепочек рассуждений.
Constitutional AI:
Модель учится следовать принципам, а не копировать примеры.
Ключевой инсайт: эти методы позволяют становиться умнее без новых человеческих данных.
Signal — из структуры задачи, а не из готовых ответов.
Читаете новость об AI? Слышите прогноз?
Задайте вопрос: по какой оси изменение?
«OpenAI выпустил o3, который решает ARC-AGI на 88%»
→ Ось 2 (inference-time compute). Та же модель, больше бюджета на reasoning.
«Данные для обучения LLM заканчиваются»
→ Верно для Оси 1. Не затрагивает оси 2-6.
«Llama 3.3 70B показывает качество Llama 3.1 405B»
→ Ось 3 (distillation, algorithmic efficiency).
«Claude научился использовать компьютер»
→ Ось 5 (tool use).
«LLM упёрлись в потолок» — без уточнения по какой оси
«Архитектура исчерпана» — игнорирует оси 3, 4, 6
«Без данных нет прогресса» — игнорирует RL, self-play, synthetic data
Линейная экстраполяция текущих ограничений
Ну и ну.
Парадокс: люди, работающие с LLM ежедневно, часто делают худшие долгосрочные прогнозы.
Почему?
Проклятие знания — видят ограничения своей области, слепы к прорывам в соседних
Якорение — текущие проблемы кажутся фундаментальными
Информационный лаг — публичная информация отстаёт от frontier research на 6-12 месяцев
Линейное мышление — экспоненциальные процессы недооцениваются
Факты:
2020: консенсус — GPT-3 это потолок scaling laws
2022: нужны триллионы токенов для каждого улучшения
2023: reasoning невозможен без symbolic AI
Все эти «потолки» были пробиты.
Я не говорю, что AGI за углом.
Я говорю более скромную вещь: одномерные прогнозы почти всегда ошибочны.
Когда кто-то говорит «LLM исчерпали себя» — спросите: по какой из шести осей?
Если ответ «по всем» — красный флаг некалиброванной уверенности.
Модели будут развиваться. Не обязательно по тем осям, которые ожидаем. Возможно, медленнее, чем надеются оптимисты.
Почти наверняка — не так, как предсказывают пессимисты.
Вывод: вместо бинарных прогнозов отслеживайте прогресс по каждой оси отдельно. Обновляйте модели по мере появления новых данных.
Вот такой ликбез.
Источник


Политика
Поделиться
Поделиться этой статьей
Скопировать ссылкуX (Twitter)LinkedInFacebookEmail
Встреча по криптовалютам в Белом доме пока не нашла
