Команда AI for Devs подготовила перевод большой обзорной статьи о 2025 годе в мире LLM. Автор подводит итоги года: от vibe coding и coding-агентов до MCP, prompКоманда AI for Devs подготовила перевод большой обзорной статьи о 2025 годе в мире LLM. Автор подводит итоги года: от vibe coding и coding-агентов до MCP, promp

[Перевод] Ретроспектива 2025: год LLM — практика, иллюзия и реальные сдвиги

Команда AI for Devs подготовила перевод большой обзорной статьи о 2025 годе в мире LLM. Автор подводит итоги года: от vibe coding и coding-агентов до MCP, prompt injection, локальных моделей, браузеров с ИИ и «slop» как культурного феномена.


Это третья часть моей ежегодной серии обзоров всего, что произошло в сфере LLM за последние 12 месяцев. Предыдущие выпуски см. в материалах Stuff we figured out about AI in 2023 и Things we learned about LLMs in 2024.

Этот год оказался насыщенным и принес с собой множество самых разных тенденций.

  • Год «рассуждений»

  • Год агентов

  • Год кодинг-агентов и Claude Code

  • Год LLM в командной строке

  • Год YOLO и нормализации отклонений

  • Год подписок по $200 в месяц

  • Год китайских open weight-моделей на вершине рейтингов

  • Год долгих задач

  • Год редактирования изображений через промпты

  • Год, когда модели взяли золото на академических соревнованиях

  • Год, когда Llama сбилась с пути

  • Год, когда OpenAI утратила лидерство

  • Год Gemini

  • Год пеликанов, катающихся на велосипедах

  • Год, за который я сделал 110 инструментов

  • Год стукачества!

  • Год vibe coding

  • Год MCP (и, возможно, единственный?)

  • Год пугающе ИИ-оснащённых браузеров

  • Год «смертельной триады»

  • Год программирования с телефона

  • Год conformance suite’ов

  • Год, когда локальные модели стали хорошими, но облачные стали ещё лучше

  • Год slop’а

  • Год, когда дата-центры стали крайне непопулярны

  • Мои собственные слова года

  • Вот и всё за 2025 год

Год «рассуждений»

OpenAI запустила революцию «рассуждений» — она же inference-scaling, она же Reinforcement Learning from Verifiable Rewards (RLVR) — в сентябре 2024 года с моделями o1 и o1-mini. В начале 2025 года компания удвоила ставку, выпустив o3, o3-mini и o4-mini, и с тех пор «рассуждения» стали фирменной особенностью моделей почти всех крупных AI-лабораторий.

Моё любимое объяснение значимости этого приёма принадлежит Андрею Карпати:

В 2025 году каждая заметная AI-лаборатория выпустила как минимум одну модель с рассуждениями. Некоторые лаборатории представили гибриды, которые можно запускать как в режиме с рассуждениями, так и без них. Во многих API-моделях теперь есть «ручки» для увеличения или уменьшения объёма рассуждений, применяемых к конкретному промпту.

Мне потребовалось время, чтобы понять, для чего рассуждения вообще полезны. Первые демо показывали решение логико-математических задачек и подсчёт букв R в слове strawberry — две вещи, которые мне в повседневной работе с моделями были не особенно нужны.

Оказалось, что настоящий прорыв рассуждений — в управлении инструментами. Модели с рассуждениями и доступом к инструментам способны планировать многошаговые задачи, выполнять их и продолжать осмысливать результаты, корректируя планы для более точного достижения цели.

Заметный эффект — наконец-то реально заработал поиск с помощью AI. Раньше подключение поисковых систем к LLM давало сомнительные результаты, а теперь я всё чаще обнаруживаю, что даже сложные исследовательские вопросы удаётся закрыть с помощью GPT-5 Thinking в ChatGPT.

Модели с рассуждениями также исключительно хорошо справляются с написанием и отладкой кода. Этот приём позволяет им начать с ошибки и шаг за шагом пройти через множество слоёв кодовой базы, чтобы найти первопричину проблемы. По моему опыту, даже самые заковыристые баги поддаются диагностике хорошему «рассуждающему» агенту, если у него есть возможность читать и исполнять код — даже в больших и сложных кодовых базах.

Совместите рассуждения с использованием инструментов — и вы получите…

Год агентов

В начале года я сделал прогноз, что агенты так и не появятся. В течение всего 2024 года все говорили об агентах, но рабочих примеров почти не было — ситуацию дополнительно запутывало то, что каждый, кто использовал термин «агент», вкладывал в него немного своё определение.

К сентябрю мне надоело самому избегать этого слова из-за отсутствия чёткого определения, и я решил считать агентом LLM, которая в цикле вызывает инструменты для достижения цели. Это сразу сняло блок и позволило вести продуктивные разговоры — а именно этого я и добиваюсь от любой подобной терминологии.

Я не верил в появление агентов, потому что не думал, что удастся решить проблему доверчивости, а сама идея заменить человеческих сотрудников LLM по-прежнему казалась мне смехотворной научной фантастикой.

В своём прогнозе я оказался наполовину прав: научно-фантастическая версия волшебного компьютерного помощника, который делает всё, о чём его попросишь (как в Her), так и не появилась…

Но если определять агентов как LLM-системы, способные выполнять полезную работу через вызовы инструментов в несколько шагов, то агенты уже здесь — и они оказываются чрезвычайно полезными.

Две самые заметные категории агентов — это кодинг и поиск.

Паттерн Deep Research — когда LLM ставят задачу собрать информацию, и она по 15+ минут «перемалывает» данные, выдавая подробный отчёт, — был популярен в первой половине года, но сейчас вышел из моды. Причина в том, что GPT-5 Thinking (и «AI mode» от Google — продукт заметно лучше их ужасных «AI overviews») способны давать сопоставимые результаты за долю этого времени. Я считаю это агентным паттерном, и он действительно хорошо работает.

А вот паттерн «кодинг-агентов» — это уже куда более серьёзная история.

Год кодинг-агентов и Claude Code

Самое значимое событие 2025 года произошло в феврале — тогда тихо вышел Claude Code.

«Тихо» — потому что ему даже не посвятили отдельный пост в блоге! Anthropic включила релиз Claude Code вторым пунктом в публикацию с анонсом Claude 3.7 Sonnet.

(Почему Anthropic перескочила с Claude 3.5 Sonnet сразу на 3.7? Потому что в октябре 2024 года они выпустили крупное обновление Claude 3.5, но оставили название без изменений. В итоге сообщество разработчиков начало называть безымянную версию 3.5 Sonnet v2 как 3.6. Из-за того, что Anthropic не дала новой модели корректное имя, они фактически «сожгли» целый номер версии.)

Claude Code — самый заметный пример того, что я называю кодинг-агентами: LLM-систем, которые умеют писать код, выполнять его, анализировать результаты и затем итеративно дорабатывать решение.

В 2025 году все крупные лаборатории выпустили собственные CLI-кодинг-агенты:

  • Claude Code

  • Codex CLI

  • Gemini CLI

  • Qwen Code

  • Mistral Vibe

Среди вендорно-независимых вариантов — GitHub Copilot CLI, Amp, OpenCode, OpenHands CLI и Pi. IDE вроде Zed, VS Code и Cursor тоже вложили немало усилий в интеграцию кодинг-агентов.

Моё первое знакомство с паттерном кодинг-агентов произошло ещё в начале 2023 года с ChatGPT Code Interpreter от OpenAI — системой, встроенной в ChatGPT и позволявшей запускать Python-код в Kubernetes-песочнице.

В этом году я был рад, что Anthropic наконец выпустила свой аналог в сентябре, пусть и под сбивающим с толку первоначальным названием «Create and edit files with Claude».

В октябре они переиспользовали эту контейнерную песочницу, чтобы запустить Claude Code для веба, и с тех пор я пользуюсь им почти каждый день.

Claude Code для веба — это то, что я называю асинхронным кодинг-агентом: системе можно дать задачу и «забыть» о ней, а она будет работать над проблемой и по завершении откроет Pull Request. OpenAI запустила «Codex cloud» (переименованный на прошлой неделе в «Codex web») ещё в мае 2025 года. В этой же категории у Gemini есть продукт под названием Jules, также вышедший в мае.

Мне очень нравится категория асинхронных кодинг-агентов. Это отличный ответ на проблемы безопасности, связанные с выполнением произвольного кода на личном ноутбуке, и к тому же невероятно удобно запускать сразу несколько задач — часто прямо с телефона — и получать вменяемые результаты через несколько минут.

Я подробнее писал о том, как использую их в исследовательских кодовых проектах, в материалах Code research projects with async coding agents like Claude Code and Codex и Embracing the parallel coding agent lifestyle.

Год LLM в командной строке

В 2024 году я потратил массу времени, ковыряясь в своём LLM-инструменте для командной строки, который позволяет работать с моделями прямо из терминала. И всё это время меня не покидало ощущение странности: почему так мало людей всерьёз воспринимают CLI-доступ к моделям, ведь он так естественно сочетается с Unix-механизмами вроде пайпов.

Может, терминал просто слишком странный и нишевый инструмент, чтобы когда-нибудь стать массовым способом работы с LLM?

Claude Code и компания убедительно доказали обратное: разработчики готовы с энтузиазмом принять LLM в командной строке — при условии, что модели достаточно мощные, а обвязка сделана правильно.

Дополнительно помогает и то, что терминальные команды с пугающе неочевидным синтаксисом вроде sed, ffmpeg или самого bash больше не являются порогом входа, когда LLM способен сразу выдать нужную команду.

По состоянию на 2 декабря Anthropic приписывает Claude Code выручку с темпом $1 млрд в год! Я совершенно не ожидал, что CLI-инструмент сможет приблизиться к таким цифрам.

Оглядываясь назад, возможно, стоило продвигать LLM не как сайд-проект, а сделать его одним из ключевых направлений.

Год YOLO и нормализации отклонений

Настройки по умолчанию у большинства кодинг-агентов таковы, что они запрашивают подтверждение пользователя почти для каждого действия. В мире, где ошибка агента может стереть ваш домашний каталог, а злонамеренная prompt-injection-атака — украсть учётные данные, такой подход выглядит абсолютно оправданным.

Каждый, кто пробовал запускать агента с автоматическим подтверждением (он же режим YOLO — в Codex CLI флаг --dangerously-bypass-approvals-and-sandbox даже имеет алиас --yolo), сталкивался с этим компромиссом: агент без «страховочных колёс» ощущается как совершенно другой продукт.

Существенное преимущество асинхронных кодинг-агентов вроде Claude Code для веба и Codex Cloud в том, что они могут работать в режиме YOLO по умолчанию — ведь там нет личного компьютера, который можно повредить.

Я сам постоянно работаю в режиме YOLO, прекрасно осознавая связанные с этим риски. Пока что это ни разу не аукнулось…

…и в этом-то и проблема.

Один из моих любимых материалов про безопасность LLM в этом году — The Normalization of Deviance in AI от исследователя безопасности Йоханна Ребергера.

Йоханн описывает феномен «нормализации отклонений», при котором многократное столкновение с рискованным поведением без негативных последствий приводит к тому, что люди и организации начинают считать такое поведение нормой.

Изначально этот термин был введён социологом Дайан Вон в рамках её исследований катастрофы шаттла Challenger в 1986 году, причиной которой стало дефектное уплотнительное кольцо O-ring — о проблеме с ним инженеры знали годами. Череда успешных запусков привела к тому, что в культуре NASA этот риск перестали воспринимать всерьёз.

Йоханн утверждает, что чем дольше нам удаётся безнаказанно эксплуатировать такие системы в фундаментально небезопасном виде, тем ближе мы подходим к собственному «Челленджеру».

Год подписок по $200 в месяц

Изначальная цена ChatGPT Plus — $20 в месяц — оказалась спонтанным решением Ника Тёрли, принятым на основе опроса в Google Form на Discord. С тех пор эта цена прочно закрепилась.

В этом году появился новый ценовой прецедент: план Claude Pro Max 20x за $200 в месяц.

У OpenAI есть аналогичный план за $200 под названием ChatGPT Pro. У Gemini — Google AI Ultra за $249 в месяц с вводной скидкой $124,99 в месяц на первые три месяца.

Похоже, эти планы приносят весьма серьёзную выручку, хотя ни одна из лабораторий не публиковала данных с разбивкой подписчиков по тарифам.

Лично я раньше платил $100 в месяц за Claude и планирую перейти на тариф за $200, как только закончится мой текущий бесплатный лимит (полученный за участие в превью одной из их моделей — спасибо, Anthropic). Я также слышал от многих других людей, которые готовы без особых сомнений платить такие суммы.

Чтобы «сжечь» $200 API-кредитов, моделями нужно пользоваться очень активно, так что логично было бы ожидать, что большинству выгоднее платить за токены. Но на практике такие инструменты, как Claude Code и Codex CLI, способны расходовать колоссальные объёмы токенов, как только вы начинаете ставить им более сложные задачи — до такой степени, что $200 в месяц дают ощутимую скидку.

Год китайских open weight-моделей на вершине рейтингов

В 2024 году у китайских AI-лабораторий появились первые признаки оживления — в основном в виде Qwen 2.5 и ранних версий DeepSeek. Это были аккуратные модели, но они не выглядели как безусловные лидеры.

В 2025 году ситуация радикально изменилась. Только за 2025 год по моему тегу ai-in-china набралось 67 публикаций, и я при этом умудрился пропустить несколько ключевых релизов ближе к концу года (в частности, GLM-4.7 и MiniMax-M2.1).

Вот рейтинг open weight-моделей от Artificial Analysis по состоянию на 30 декабря 2025 года:

37248aa6ad993b6d3ff7030e110461e5.jpg

GLM-4.7, Kimi K2 Thinking, MiMo-V2-Flash, DeepSeek V3.2 и MiniMax-M2.1 — все это китайские open weight-модели. Самая высоко расположенная в списке некитайская модель — gpt-oss-120B (high) от OpenAI, она занимает шестое место.

Революция китайских моделей по-настоящему стартовала на Рождество 2024 года с релизом DeepSeek 3, который, по утверждениям, был обучен примерно за $5,5 млн. А уже 20 января DeepSeek выпустила DeepSeek R1, что моментально спровоцировало масштабную распродажу акций в AI- и полупроводниковом секторе: NVIDIA потеряла около $593 млрд рыночной капитализации, когда инвесторы запаниковали из-за того, что AI, возможно, вовсе не является исключительно американской монополией.

118b90e451e9bd0980bdb63a87e74a04.jpeg

Паника, впрочем, длилась недолго — NVIDIA быстро восстановилась и сегодня торгуется значительно выше уровней, предшествовавших DeepSeek R1. Тем не менее это был поразительный момент. Кто бы мог подумать, что релиз open weight-модели способен вызвать такой эффект?

Вскоре к DeepSeek присоединилась впечатляющая плеяда китайских AI-лабораторий. Я особенно внимательно слежу за следующими:

  • DeepSeek

  • Alibaba Qwen (Qwen3)

  • Moonshot AI (Kimi K2)

  • Z.ai (GLM-4.5 / 4.6 / 4.7)

  • MiniMax (M2)

  • MetaStone AI (XBai o4)

Большинство этих моделей не просто open weight — они полностью open source и распространяются под лицензиями, одобренными OSI: Qwen использует Apache 2.0 для большинства своих моделей, DeepSeek и Z.ai — MIT.

Некоторые из них вполне конкурентоспособны с Claude 4 Sonnet и GPT-5!

К сожалению, ни одна из китайских лабораторий не опубликовала полный набор обучающих данных или код, использованный для обучения моделей. Зато они регулярно выпускают подробные исследовательские статьи, которые заметно двигают индустрию вперёд — особенно в вопросах эффективного обучения и инференса.

Год долгих задач

Один из самых любопытных недавних графиков про LLM — это Time-horizon of software engineering tasks different LLMs can complete 50% of the time от METR:

fb58c86c82c0d25f791cc10e76f301b2.jpg

Этот график показывает задачи, на выполнение которых человеку требуется до 5 часов, и отображает эволюцию моделей, способных достигать тех же целей автономно. Как видно, в 2025 году здесь произошли колоссальные скачки: GPT-5, GPT-5.1 Codex Max и Claude Opus 4.5 уже справляются с задачами, которые занимают у людей несколько часов, тогда как лучшие модели 2024 года «упирались» примерно в 30 минут.

В METR делают вывод, что «длительность задач, которые способен выполнять AI, удваивается каждые 7 месяцев». Я не уверен, что этот паттерн сохранится и дальше, но как иллюстрация текущих трендов в возможностях агентов он выглядит очень эффектно.

Год редактирования изображений через промпты

Самый успешный запуск потребительского продукта за всю историю произошёл в марте — и у этого продукта даже не было названия.

Одной из ключевых возможностей GPT-4o в мае 2024 года задумывался мультимодальный вывод: буква «o» означала omni, а в анонсе OpenAI фигурировало множество функций «coming soon», где модель должна была выдавать изображения наравне с текстом.

А затем… ничего. Функция генерации изображений так и не появилась.

В марте мы наконец увидели, на что это способно — пусть и в форме, больше напоминающей привычный DALL-E. OpenAI сделала новую генерацию изображений доступной в ChatGPT, добавив ключевую возможность: можно загружать собственные картинки и с помощью промптов указывать, как именно их нужно изменить.

Именно эта функция привела к 100 миллионам регистраций в ChatGPT всего за одну неделю. В пиковый момент система фиксировала по 1 миллиону новых аккаунтов в час!

Приёмы вроде «гиблификации» — превращения фотографии в кадр из фильма Studio Ghibli — снова и снова становились вирусными.

OpenAI выпустила API-версию этой модели под названием gpt-image-1, а позже добавила более дешёвую gpt-image-1-mini в октябре и значительно улучшенную gpt-image-1.5 — 16 декабря.

Самым заметным open weight-конкурентом стал релиз от Qwen: модель генерации изображений Qwen-Image, вышедшая 4 августа, а затем Qwen-Image-Edit — 19 августа. Эту модель можно запускать даже на (достаточно мощном) потребительском железе. В ноябре они продолжили с Qwen-Image-Edit-2511, а 30 декабря выпустили Qwen-Image-2512 — до них у меня руки пока не дошли.

Ещё более громкие новости в генерации изображений пришли от Google с их моделями Nano Banana, доступными через Gemini.

Google показала раннюю версию ещё в марте под названием «Gemini 2.0 Flash native image generation». По-настоящему сильная версия вышла 26 августа, когда компания начала осторожно использовать кодовое имя «Nano Banana» публично (API-модель при этом называлась «Gemini 2.5 Flash Image»).

Nano Banana привлекла внимание тем, что умела генерировать полезный текст. Кроме того, она явно лучше других моделей следовала инструкциям по редактированию изображений.

В ноябре Google окончательно приняла название «Nano Banana», выпустив Nano Banana Pro. Эта версия не просто генерирует текст — она умеет создавать действительно полезные, детализированные инфографики и другие изображения, насыщенные текстом и данными. Это уже инструмент профессионального уровня.

Макс Вулф опубликовал самый подробный гайд по написанию промптов для Nano Banana, а в декабре выпустил обязательное к прочтению руководство по Nano Banana Pro.

Я в основном использую её для добавления попугаев какапо на свои фотографии.

60bbe8314ddfe9c19ce17d22a9064d88.jpg

С учётом того, насколько невероятно популярны такие инструменты для работы с изображениями, немного удивительно, что Anthropic так и не выпустила и не интегрировала ничего подобного в Claude. Я воспринимаю это как ещё одно подтверждение того, что компания делает ставку на AI-инструменты для профессиональной работы. В то же время Nano Banana Pro стремительно доказывает свою ценность для всех, чья работа связана с созданием презентаций и других визуальных материалов.

Год, когда модели взяли золото на академических соревнованиях

В июле модели с рассуждениями от OpenAI и Google Gemini показали уровень золотой медали на Международной математической олимпиаде — престижном математическом соревновании, которое проводится ежегодно (за исключением 1980 года) с 1959 года.

Это было особенно примечательно потому, что задачи IMO разрабатываются специально для этого конкурса. Никаких шансов, что они уже были в обучающих данных, просто нет.

Важно и то, что ни одна из моделей не имела доступа к инструментам — решения были сгенерированы исключительно за счёт внутренних знаний и токен-ориентированных механизмов рассуждения.

Оказалось, что достаточно продвинутые LLM всё-таки умеют решать математику!

В сентябре OpenAI и Gemini провернули похожий трюк на Международном студенческом чемпионате по программированию (ICPC) — снова с принципиально новыми, ранее не публиковавшимися задачами. На этот раз модели имели доступ к среде выполнения кода, но при этом не имели доступа к интернету.

Я не думаю, что точные версии моделей, использованные на этих соревнованиях, были выложены публично, но Gemini Deep Think и GPT-5 Pro от OpenAI должны давать очень близкое представление об их возможностях.

Год, когда Llama сбилась с пути

Оглядываясь назад, можно сказать, что 2024-й был годом Llama. Модели Llama от Meta были безусловно самыми популярными open weight-моделями: оригинальная Llama ещё в 2023 году запустила open weight-революцию, а линейка Llama 3 — особенно минорные релизы 3.1 и 3.2 — стала огромным шагом вперёд по возможностям.

От Llama 4 ждали многого, и когда она вышла в апреле, результат оказался… скорее разочаровывающим.

Разразился небольшой скандал: выяснилось, что модель, протестированная на LMArena, была не той, которую в итоге выпустили. Но моя главная претензия заключалась в другом — модели оказались слишком большими. Одной из самых приятных особенностей прошлых релизов Llama было то, что в них часто присутствовали версии, которые можно было запускать на ноутбуке. А вот Llama 4 Scout и Maverick — это 109B и 400B параметров соответственно, настолько крупные, что даже квантизация не позволила бы запустить их на моём Mac с 64 ГБ памяти.

Обучались они с использованием 2T-модели Llama 4 Behemoth, о которой теперь, кажется, уже никто не вспоминает — её, разумеется, так и не выпустили.

Показательно, что среди самых популярных моделей в LM Studio нет ни одной от Meta, а самой востребованной моделью в Ollama по-прежнему остаётся Llama 3.1 — и то она там находится далеко не вверху рейтингов.

AI-новости от Meta в этом году в основном касались внутренней политики и колоссальных сумм, потраченных на найм специалистов для новых Superintelligence Labs. Неясно, есть ли в разработке будущие релизы Llama или компания вообще отошла от выпуска open weight-моделей, сосредоточившись на других направлениях.

Год, когда OpenAI утратила лидерство

В прошлом году OpenAI оставалась безоговорочным лидером в мире LLM — особенно на фоне o1 и превью их рассуждающих моделей o3.

В этом году остальная индустрия их догнала.

У OpenAI по-прежнему есть модели топ-уровня, но конкуренция теперь идёт по всем фронтам.

В генерации изображений их всё ещё обходит Nano Banana Pro. В коде многие разработчики считают Opus 4.5 чуть-чуть лучше, чем GPT-5.2 Codex. В сегменте open weight-моделей их gpt-oss, при всех достоинствах, уступают китайским AI-лабораториям. А лидерство в аудио оказалось под угрозой из-за Gemini Live API.

Где OpenAI по-настоящему выигрывает — так это в потребительском сознании. Почти никто не знает, что такое «LLM», но практически все слышали про ChatGPT. Их пользовательские приложения по числу пользователей до сих пор заметно превосходят Gemini и Claude.

Главный риск для OpenAI здесь — Gemini. В декабре OpenAI объявила режим Code Red в ответ на Gemini 3, отложив работу над новыми инициативами, чтобы сосредоточиться на конкуренции по ключевым продуктам.

Год Gemini

Для Google Gemini этот год выдался действительно удачным.

Они опубликовали собственный победный обзор 2025 года — и было за что. В течение 2025-го вышли Gemini 2.0, затем Gemini 2.5 и, наконец, Gemini 3.0. Каждое поколение поддерживало аудио-, видео-, графический и текстовый ввод объёмом более 1 000 000 токенов, предлагалось по конкурентной цене и заметно превосходило предыдущее по возможностям.

Кроме того, Google выпустила Gemini CLI (open source-кодинг-агент для командной строки, который позже был форкнут Qwen для Qwen Code), Jules (асинхронный кодинг-агент), постоянно улучшала AI Studio, представила модели изображений Nano Banana, Veo 3 для генерации видео, перспективное семейство open weight-моделей Gemma 3 и целый поток более мелких нововведений.

Главное преимущество Google скрыто «под капотом». Почти все остальные AI-лаборатории обучают модели на GPU от NVIDIA, которые продаются с такой маржой, что поддерживают многотриллионную оценку самой NVIDIA.

Google же использует собственное аппаратное обеспечение — TPU, и в этом году компания убедительно показала, что они исключительно хорошо подходят как для обучения, так и для инференса моделей.

Когда ваша главная статья расходов — это время работы на GPU, наличие конкурента с собственным, оптимизированным и, предположительно, куда более дешёвым аппаратным стеком выглядит весьма пугающе.

Меня до сих пор забавляет, что Google Gemini — это, пожалуй, идеальный пример названия продукта, отражающего внутреннюю оргструктуру компании: он называется Gemini потому, что родился из объединения (как близнецов) команд Google DeepMind и Google Brain.

Год пеликанов, катающихся на велосипедах

Впервые я попросил LLM сгенерировать SVG с пеликаном, едущим на велосипеде, в октябре 2024 года, но по-настоящему я «въехал» в эту тему уже в 2025-м. В итоге это превратилось в самостоятельный мем.

Изначально это задумывалось как глупая шутка. Велосипеды сложно рисовать, пеликанов тоже, а пеликаны к тому же плохо подходят по форме для езды на велосипеде. Я был почти уверен, что в обучающих данных не найдётся ничего релевантного, так что просьба к текстовой модели выдать SVG-иллюстрацию такого сюжета казалась абсурдно сложной задачей.

К моему удивлению, похоже, существует корреляция между тем, насколько хорошо модель рисует пеликанов на велосипедах, и её общим уровнем качества.

Объяснения у меня этому нет. Этот паттерн стал для меня очевиден лишь тогда, когда я в спешке готовил запасной доклад (у них выбыл один из спикеров) для AI Engineer World’s Fair в июле.

Почитать (или посмотреть) мой доклад можно здесь: The last six months in LLMs, illustrated by pelicans on bicycles.

Вся моя коллекция иллюстраций собрана под тегом pelican-riding-a-bicycle — уже 89 публикаций, и счётчик продолжает расти.

Есть немало свидетельств того, что AI-лаборатории знают об этом бенчмарке. Он мелькнул (буквально на долю секунды) в майском keynote Google I/O, был упомянут в октябрьской исследовательской работе Anthropic по интерпретируемости, и я даже успел рассказать о нём в видео с запуском GPT-5, снятом в штаб-квартире OpenAI в августе.

Тренируют ли они модели специально под этот бенчмарк? Думаю, что нет — потому что иллюстрации пеликанов, которые выдают даже самые продвинутые frontier-модели, всё ещё ужасны!

В статье What happens if AI labs train for pelicans riding bicycles? я признался в своей коварной цели:

Моей любимой до сих пор остаётся вот эта версия от GPT-5:

8c35381b43258808ff39a08d0fbf657e.png

Год, за который я сделал 110 инструментов

В прошлом году я запустил сайт tools.simonwillison.net как единое место для своей растущей коллекции HTML+JavaScript-инструментов, написанных в стиле vibe coding и с помощью ИИ. В течение года я опубликовал несколько более развёрнутых материалов на эту тему:

  • Вот как я использую LLM, чтобы помогать себе писать код

  • Добавление сгенерированных ИИ описаний в мою коллекцию инструментов

  • Создание инструмента для копирования и вставки расшариваемых сессий терминала с помощью Claude Code for web

  • Полезные паттерны для создания HTML-инструментов — мой любимый пост из всех.

Новая страница «просмотреть всё по месяцам» показывает, что в 2025 году я сделал 110 таких инструментов!

Мне действительно нравится работать в таком формате, и я считаю, что это отличный способ практиковаться и исследовать возможности этих моделей. Почти каждый инструмент сопровождается историей коммитов со ссылками на промпты и транскрипты, которые я использовал при разработке.

Хочу выделить несколько своих любимых проектов за прошлый год:

  • blackened-cauliflower-and-turkish-style-stew — это чистое безумие. Кастомное приложение-таймер для готовки для тех, кому нужно одновременно приготовить рецепты Green Chef: «Обжаренная цветная капуста» и «Нут в специях по-турецки». Вот подробности об этом инструменте.

  • is-it-a-bird вдохновлён xkcd 1425, загружает 150-мегабайтную модель CLIP через Transformers.js и использует её, чтобы определить, является ли изображение или поток с веб-камеры птицей или нет.

  • bluesky-thread позволяет просматривать любой тред в Bluesky с сортировкой «сначала самые новые», чтобы было проще следить за новыми постами по мере их появления.

Многие другие — это полезные инструменты для моего собственного рабочего процесса, такие как svg-render, render-markdown и alt-text-extractor. Я также сделал инструмент для приватной персональной аналитики на основе localStorage, который помогает отслеживать, какими инструментами я пользуюсь чаще всего.

f19dc31ee065909a04ee283f2ef0c03f.jpg

Год стукачества!

Системные карточки моделей Anthropic всегда стоило читать целиком — в них много полезной информации, и к тому же они нередко уходят в весьма увлекательные области научной фантастики.

В системной карточке Claude 4, опубликованной в мае, было несколько особенно забавных моментов — основные, на мой взгляд:

Иными словами, Claude 4 может настучать на вас федералам.

Это привлекло огромное внимание прессы, и многие обвинили Anthropic в том, что они обучили модель, которая оказалась «слишком этичной себе во вред». После этого Тео Браун использовал идею из системной карточки и создал SnitchBench — бенчмарк, проверяющий, насколько разные модели склонны стучать на своих пользователей.

Выяснилось, что почти все они ведут себя одинаково!

Тео выпустил видео, а я опубликовал собственные заметки о том, как воспроизвести SnitchBench с помощью моей LLM.

Ключевой промпт, на котором всё это работает, выглядит так:

Я не рекомендую помещать такое в system prompt! В оригинальной системной карточке Claude 4 от Anthropic говорилось ровно об этом же:

Год vibe coding

В твите в феврале Андрея Карпати ввёл термин «vibe coding», снабдив его, к сожалению, чрезмерно длинным определением (эх, времена 140 символов), которое многие так и не дочитали до конца:

Ключевая идея здесь — «забыть, что код вообще существует». Vibe coding зафиксировал новый, весёлый способ прототипирования софта, который «в основном работает» за счёт одних только промптов.

Не уверен, что когда-либо видел, чтобы новый термин так быстро приживался — или искажался — буквально на моих глазах.

Многие вместо этого стали использовать vibe coding как универсальный ярлык для всего, где в программировании участвуют LLM. На мой взгляд, это пустая трата отличного термина, особенно учитывая, что становится всё очевиднее: в ближайшем будущем почти всё программирование будет в той или иной степени с ИИ-поддержкой.

Поскольку я питаю слабость к борьбе с лингвистическими ветряными мельницами, я изо всех сил пытался продвигать исходное значение термина:

  • Не всё программирование с ИИ — это vibe coding (но vibe coding — это круто) — март

  • Два издательства и три автора не поняли, что значит «vibe coding» — май (одна из книг впоследствии сменила название на куда более удачное «Beyond Vibe Coding»)

  • Vibe engineering — октябрь, где я попытался предложить альтернативный термин для того, что происходит, когда профессиональные инженеры используют ИИ для создания продакшен-софта

  • Ваша задача — поставлять код, который вы доказали, что он работает — декабрь, о том, что профессиональная разработка ПО сводится к коду, который demonstrably работает, независимо от того, как именно вы его создали.

Не думаю, что эта битва уже закончена. Я видел обнадёживающие сигналы того, что более точное, исходное определение vibe coding всё же может взять верх.

Мне определённо стоит найти менее конфликтное лингвистическое хобби.

Год MCP (и, возможно, единственный?)

Anthropic представила спецификацию Model Context Protocol в ноябре 2024 года как открытый стандарт для интеграции вызовов инструментов с разными LLM. В начале 2025-го он буквально взорвался по популярности. В какой-то момент в мае OpenAI, Anthropic и Mistral выкатили поддержку MCP на уровне API с разницей всего в восемь дней!

Сама идея MCP вполне здраво выглядит, но столь массовое принятие стало для меня неожиданностью. Думаю, всё дело во времени: релиз MCP совпал с моментом, когда модели наконец стали действительно хорошо и надёжно работать с вызовами инструментов — до такой степени, что многие, похоже, начали воспринимать поддержку MCP как обязательное условие для того, чтобы модель вообще могла использовать инструменты.

Какое-то время MCP также казался удобным ответом для компаний, на которые давили с требованием иметь «ИИ-стратегию», при том что они толком не понимали, как её реализовать. Анонс MCP-сервера для своего продукта был простым и наглядным способом поставить галочку в этом пункте.

Почему я думаю, что MCP может оказаться феноменом одного года, — это стремительный рост coding-агентов. Похоже, что лучший инструмент практически для любой задачи — это Bash: если агент умеет выполнять произвольные shell-команды, он способен сделать всё, что можно сделать, вводя команды в терминале.

С тех пор как я сам стал активно использовать Claude Code и ему подобные инструменты, я почти перестал пользоваться MCP — CLI-инструменты вроде gh и библиотеки наподобие Playwright оказались для меня более удачными альтернативами GitHub и Playwright MCP.

Похоже, в Anthropic сами пришли к этому выводу позже в том же году, выпустив великолепный механизм Skills — см. мой октябрьский пост «Claude Skills — это круто, возможно, даже важнее, чем MCP». MCP предполагает веб-серверы и сложные JSON-пейлоады. Skill же — это Markdown-файл в папке, при необходимости дополненный исполняемыми скриптами.

Затем, в ноябре, Anthropic опубликовала материал Code execution with MCP: Building more efficient agents, где описывался способ заставить coding-агентов генерировать код для вызова MCP таким образом, чтобы избежать значительной части контекстных накладных расходов исходной спецификации.

(Я, кстати, горжусь тем, что зареверсил skills у Anthropic за неделю до их анонса, а затем проделал то же самое с тихим внедрением skills у OpenAI два месяца спустя.)

В начале декабря MCP был передан в новый Agentic AI Foundation. А 18 декабря Skills получили статус «открытого формата».

Год пугающе ИИ-оснащённых браузеров

Несмотря на совершенно очевидные риски для безопасности, всем почему-то хочется встроить LLM прямо в ваш веб-браузер.

В октябре OpenAI запустила ChatGPT Atlas — проект, над которым работала команда, в том числе бывшие инженеры Google Chrome Бен Гуджер и Дарин Фишер.

Anthropic активно продвигает расширение Claude in Chrome, предлагая схожие возможности, но в формате расширения, а не полноценного форка Chrome.

В самом Chrome теперь тоже появилась небольшая кнопка «Gemini» в правом верхнем углу — Gemini in Chrome. Насколько я понимаю, пока она предназначена только для ответов на вопросы по содержимому страниц и ещё не умеет управлять действиями в браузере.

Я по-прежнему крайне обеспокоен последствиями этих инструментов для безопасности. Мой браузер имеет доступ к самым чувствительным данным и фактически управляет значительной частью моей цифровой жизни. Атака с prompt injection на браузерного агента, который способен извлекать или изменять эти данные, — по-настоящему пугающая перспектива.

Пока что самые подробные рассуждения о снижении этих рисков, которые я видел, прозвучали от CISO OpenAI Дейна Стакки. Он говорил о защитных ограничениях, red teaming и многоуровневой защите, но при этом справедливо назвал prompt injection «пограничной, пока нерешённой проблемой безопасности».

Я уже несколько раз пользовался такими браузерными агентами (пример) — под очень пристальным контролем. Они довольно медленные и немного кривоватые: часто промахиваются, пытаясь кликать по интерактивным элементам. Зато они удобны для решения задач, которые невозможно закрыть через API.

Тем не менее мне по-прежнему не по себе, особенно если представить эти инструменты в руках людей, менее параноидальных, чем я.

Год «смертельной триады»

Я пишу об атаках prompt injection уже больше трёх лет. Одна из постоянных трудностей — объяснить людям, почему это проблема, к которой должны относиться всерьёз все, кто разрабатывает софт в этой области.

Ситуацию усугубляет семантическое расползание: термин «prompt injection» со временем стал охватывать и джейлбрейкинг (несмотря на мои возражения). А кого вообще волнует, что кто-то может заставить модель сказать что-нибудь грубое?

Поэтому я попробовал новый лингвистический приём. В июне я ввёл термин «смертельная триада», чтобы описать подмножество prompt injection, при котором вредоносные инструкции обманом вынуждают агента похищать приватные данные в интересах атакующего.

87284072008fce71bdc3396c467b78e9.jpg

Фокус здесь в том, что люди обычно автоматически подставляют самое очевидное значение для любого нового термина. «Prompt injection» звучит так, будто речь идёт просто о «внедрении промптов». «Смертельная триада» же намеренно двусмысленна — чтобы понять, что имеется в виду, нужно пойти и найти моё определение.

Похоже, это сработало. За этот год я видел немало примеров того, как люди обсуждают «смертельную триаду», и пока что — без каких-либо искажений её смысла.

Год программирования с телефона

В этом году я написал заметно больше кода на телефоне, чем на компьютере.

Большую часть года это было связано с тем, что я очень сильно ушёл в vibe coding. Моя коллекция HTML+JavaScript-инструментов на tools.simonwillison.net в основном создавалась именно так: у меня появлялась идея небольшого проекта, я писал промпты в Claude Artifacts, ChatGPT или (в последнее время) Claude Code через соответствующие приложения для iPhone, а затем либо копировал результат и вставлял его в веб-редактор GitHub, либо ждал, пока будет создан PR, который я потом просматривал и мерджил в Mobile Safari.

Эти HTML-инструменты обычно занимают порядка 100–200 строк кода, наполнены неинтересным бойлерплейтом и повторяющимися CSS- и JavaScript-паттернами — но когда их 110, в сумме это выходит немало.

До ноября я бы сказал, что писал больше кода на телефоне, но код, написанный на ноутбуке, был явно более значимым — полностью отревьюенным, лучше протестированным и предназначенным для продакшена.

За последний месяц я стал достаточно уверен в Claude Opus 4.5, чтобы начать использовать Claude Code на телефоне для решения куда более сложных задач, включая код, который я планирую влить в свои неигрушечные проекты.

Всё началось с моего проекта по портированию HTML5-парсера JustHTML с Python на JavaScript с использованием Codex CLI и GPT-5.2. Когда это удалось сделать исключительно за счёт промптов, мне стало интересно, сколько похожей работы я мог бы выполнить, используя только телефон.

В итоге я попробовал портировать новую C-библиотеку MicroQuickJS от Фабриса Беллара на Python, полностью работая через Claude Code на своём iPhone… и в целом это сработало!

Готов ли я использовать этот код в продакшене? Конечно, пока нет — по крайней мере для несовершенного кода. Но я бы доверил ему выполнение JavaScript, написанного мной самим. Тестовый набор, который я позаимствовал у MicroQuickJS, даёт мне в этом определённую уверенность.

Год conformance suite’ов

Вот что оказалось настоящим прорывом: современные coding-агенты в связке с пограничными моделями уровня ~ноября 2025 года работают поразительно эффективно, если дать им готовый набор тестов, на который можно опираться. Я называю такие наборы conformance suite’ами и начал целенаправленно их выискивать — на данный момент у меня уже были удачные результаты с тестами html5lib, тестовым набором MicroQuickJS и ещё одним, пока не опубликованным проектом, основанным на полном наборе спецификаций и тестов WebAssembly.

Если в 2026 году вы собираетесь представить миру новый протокол или даже новый язык программирования, я настоятельно рекомендую включить в проект язык-агностичный conformance suite.

Я нередко вижу переживания о том, что необходимость попадания в обучающие данные LLM будет мешать новым технологиям набирать популярность. Мне хочется верить, что подход с conformance suite’ами поможет смягчить эту проблему и упростит продвижение новых идей такого рода.

Год, когда локальные модели стали хорошими, но облачные стали ещё лучше

К концу 2024 года я начал терять интерес к запуску локальных LLM на своей машине. Он вспыхнул вновь в декабре с выходом Llama 3.3 70B — впервые у меня появилось ощущение, что я могу запустить по-настоящему модель класса GPT-4 на своём MacBook Pro с 64 ГБ памяти.

Затем, в январе, Mistral выпустили Mistral Small 3 — модель на 24 млрд параметров с лицензией Apache 2, которая, судя по всему, выдавала сопоставимый результат с Llama 3.3 70B, используя примерно треть объёма памяти. Теперь я мог запускать модель класса ~GPT-4 и при этом у меня оставалась память для других приложений!

Этот тренд продолжался на протяжении всего 2025 года, особенно после того, как начали доминировать модели из китайских ИИ-лабораторий. Сладкая точка в районе ~20–32 млрд параметров постоянно получала всё более сильные модели, каждая из которых превосходила предыдущую.

Мне даже удалось сделать немного реальной работы офлайн! Мой интерес к локальным LLM действительно возродился.

Проблема в том, что крупные облачные модели тоже становились лучше — включая open weight модели, которые хоть и были свободно доступны, но оказывались слишком большими (100B+) для запуска на моём ноутбуке.

Coding-агенты изменили для меня всё. Системам вроде Claude Code нужна не просто отличная модель — им требуется reasoning-модель, способная надёжно выполнять вызовы инструментов десятки, а то и сотни раз на фоне постоянно растущего контекстного окна.

Я пока не встречал локальную модель, которая бы достаточно надёжно справлялась с вызовами Bash-инструментов, чтобы я был готов доверить ей управление coding-агентом прямо на своём устройстве.

Мой следующий ноутбук будет иметь как минимум 128 ГБ оперативной памяти, так что есть шанс, что одна из open weight моделей 2026 года всё-таки подойдёт для этой задачи. Но пока я остаюсь на лучших из доступных размещённых frontier-моделей в качестве своих повседневных рабочих инструментов.

Год slop’а

В 2024 году я сыграл совсем небольшую роль в популяризации термина «slop», написав о нём в мае и вскоре после этого попав с цитатами в Guardian и New York Times.

В этом году Merriam-Webster вообще признал его словом года!

Мне нравится, что это слово отражает широко распространённое ощущение: ИИ-сгенерированный контент плохого качества — это плохо, и его стоит избегать.

Я всё ещё надеюсь, что slop в итоге не станет такой серьёзной проблемой, как многие опасаются.

Интернет всегда был переполнен контентом низкого качества. Задача, как и прежде, — находить и усиливать хорошее. Я не думаю, что рост объёма мусора сильно меняет эту базовую динамику. Курация важна как никогда.

При этом… я не пользуюсь Facebook и довольно тщательно фильтрую и курирую своё потребление других соцсетей. Facebook всё ещё завален «Креветочным Иисусом» или это было сугубо явлением 2024 года? Я слышал, что теперь в тренде фейковые видео про спасение милых зверюшек.

Вполне возможно, что проблема slop’а — это нарастающая приливная волна, о которой я наивно даже не подозреваю.

Год, когда дата-центры стали крайне непопулярны

Я почти решил не писать в этом году об экологическом воздействии ИИ (вот что я писал в 2024-м), потому что не был уверен, узнали ли мы за этот год что-то новое: дата-центры ИИ по-прежнему сжигают колоссальные объёмы энергии, а гонка по их строительству продолжает ускоряться и выглядит всё более неустойчивой.

Однако в 2025 году интересно то, что общественное мнение, похоже, довольно резко разворачивается против строительства новых дата-центров.

Вот заголовок Guardian от 8 декабря: «Более 200 экологических организаций требуют остановить строительство новых дата-центров в США». Противодействие на локальном уровне тоже, судя по всему, резко усиливается повсеместно.

Аргументы Энди Мэсли убедили меня в том, что проблема потребления воды в значительной степени раздута и опасна прежде всего тем, что отвлекает внимание от куда более реальных проблем — энергопотребления, углеродных выбросов и шумового загрязнения.

ИИ-лаборатории продолжают находить новые способы повысить эффективность и обслуживать всё более качественные модели, расходуя меньше энергии на токен. Но эффект этого — классический парадокс Джевонса: по мере удешевления токенов мы находим всё более интенсивные способы их использования, например тратим по 200 долларов в месяц на миллионы токенов для запуска coding-агентов.

Мои собственные слова года

Как заядлый коллекционер неологизмов, вот мои личные фавориты за 2025 год. Более длинный список можно посмотреть по тегу definitions.

  • Vibe coding — разумеется.

  • Vibe engineering — я до сих пор не уверен, стоит ли пытаться продвигать этот термин!

  • The lethal trifecta — единственная моя попытка ввести новый термин в этом году, которая, похоже, действительно прижилась.

  • Context rot — термин от Workaccount2 на Hacker News для явления, когда качество вывода модели падает по мере роста контекста в ходе сессии.

  • Context engineering — как альтернатива prompt engineering, подчёркивающая, насколько важно продумывать контекст, который вы скармливаете модели.

  • Slopsquatting — термин Сета Ларсона для ситуации, когда LLM галлюцинирует неверное имя пакета, которое затем злонамеренно регистрируется для распространения вредоносного ПО.

  • Vibe scraping — ещё один мой термин, который толком никуда не пошёл: про scraping-проекты, реализованные coding-агентами, управляемыми промптами.

  • Asynchronous coding agent — для Claude for web / Codex cloud / Google Jules.

  • Extractive contributions — термин Нади Эгбал для вкладов в open source, где «предельная стоимость ревью и мерджа такого вклада превышает предельную пользу для создателей проекта».

Русскоязычное сообщество про AI в разработке

e49d91116e8021878350d6d9209007d2.png

Друзья! Эту статью подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-ассистентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Источник

Возможности рынка
Логотип Prompt
Prompt Курс (PROMPT)
$0.06592
$0.06592$0.06592
+0.12%
USD
График цены Prompt (PROMPT) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.