Подробности реализации BSGAL на наборе данных LVIS с использованием CenterNet2 с базовыми моделями ResNet-50/Swin-L.Подробности реализации BSGAL на наборе данных LVIS с использованием CenterNet2 с базовыми моделями ResNet-50/Swin-L.

Технические детали: обучение BSGAL, основа Swin-L и стратегия динамического порога

2025/12/07 02:00

Резюме и 1 Введение

  1. Связанные работы

    2.1. Генеративное расширение данных

    2.2. Активное обучение и анализ данных

  2. Предварительная информация

  3. Наш метод

    4.1. Оценка вклада в идеальном сценарии

    4.2. Пакетное потоковое генеративное активное обучение

  4. Эксперименты и 5.1. Офлайн-настройка

    5.2. Онлайн-настройка

  5. Заключение, более широкое влияние и ссылки

    \

A. Детали реализации

B. Дополнительные исследования

C. Обсуждение

D. Визуализация

A. Детали реализации

A.1. Набор данных

Мы выбрали LVIS (Gupta et al., 2019) в качестве набора данных для наших экспериментов. LVIS - это масштабный набор данных сегментации экземпляров, включающий примерно 160 000 изображений с более чем 2 миллионами высококачественных аннотаций сегментации экземпляров по 1203 категориям реального мира. Набор данных дополнительно разделен на три категории: редкие, обычные и частые, в зависимости от их встречаемости на изображениях. Экземпляры, помеченные как "редкие", встречаются в 1-10 изображениях, "обычные" экземпляры встречаются в 11-100 изображениях, тогда как "частые" экземпляры встречаются более чем в 100 изображениях. Общий набор данных демонстрирует распределение с длинным хвостом, близко напоминающее распределение данных в реальном мире, и широко применяется в различных условиях, включая сегментацию с малым количеством примеров (Liu et al., 2023) и сегментацию открытого мира (Wang et al., 2022; Zhu et al., 2023). Поэтому мы считаем, что выбор LVIS позволяет лучше отразить производительность модели в реальных сценариях. Мы используем официальное разделение набора данных LVIS, с примерно 100 000 изображений в обучающем наборе и 20 000 изображений в валидационном наборе.

A.2. Генерация данных

Наш процесс генерации данных и аннотирования соответствует Zhao et al. (2023), и мы кратко представляем его здесь. Сначала мы используем StableDiffusion V1.5 (Rombach et al., 2022a) (SD) в качестве генеративной модели. Для 1203 категорий в LVIS (Gupta et al., 2019) мы генерируем 1000 изображений на категорию с разрешением изображения 512 × 512. Шаблон запроса для генерации - "a photo of a single {CATEGORY NAME}". Мы используем U2Net (Qin et al., 2020), SelfReformer (Yun and Lin, 2022), UFO (Su et al., 2023) и CLIPseg (Luddecke and Ecker, 2022) соответственно для аннотирования сырых генеративных изображений и выбираем маску с наивысшим показателем CLIP в качестве окончательной аннотации. Для обеспечения качества данных изображения с показателями CLIP ниже 0.21 отфильтровываются как изображения низкого качества. Во время обучения мы также используем стратегию вставки экземпляров, предоставленную Zhao et al. (2023) для расширения данных. Для каждого экземпляра мы случайным образом изменяем его размер, чтобы соответствовать распределению его категории в обучающем наборе. Максимальное количество вставленных экземпляров на изображение установлено на 20.

\ Кроме того, чтобы дополнительно расширить разнообразие сгенерированных данных и сделать наше исследование более универсальным, мы также используем другие генеративные модели, включая DeepFloyd-IF (Shonenkov et al., 2023) (IF) и Perfusion (Tewel et al., 2023) (PER), с 500 изображениями на категорию на модель. Для IF мы используем предварительно обученную модель, предоставленную автором, и сгенерированные изображения являются выходом Stage II с разрешением 256×256. Для PER базовая модель, которую мы используем, - это StableDiffusion V1.5. Для каждой категории мы дообучаем модель, используя изображения, вырезанные из обучающего набора, с 400 шагами дообучения. Мы используем дообученную модель для генерации изображений.

\ Таблица 7. Сравнение различных сгенерированных данных.

\ Мы также исследуем влияние использования различных сгенерированных данных на производительность модели (см. Таблицу 7). Мы видим, что на основе оригинального StableDiffusion V1.5 использование других генеративных моделей может принести некоторое улучшение производительности, но это улучшение не очевидно. В частности, для конкретных категорий частоты мы обнаружили, что IF имеет более значительное улучшение для редких категорий, в то время как PER имеет более значительное улучшение для обычных категорий. Это, вероятно, потому что данные IF более разнообразны, в то время как данные PER более соответствуют распределению обучающего набора. Учитывая, что общая производительность была улучшена до определенной степени, мы в итоге принимаем сгенерированные данные SD + IF + PER для последующих экспериментов.

A.3. Обучение модели

Следуя Zhao et al. (2023), мы используем CenterNet2 (Zhou et al., 2021) в качестве нашей модели сегментации, с ResNet-50 (He et al., 2016) или Swin-L (Liu et al., 2022) в качестве основы. Для ResNet-50 максимальное количество итераций обучения установлено на 90 000, и модель инициализируется весами, сначала предварительно обученными на ImageNet-22k, а затем дообученными на LVIS (Gupta et al., 2019), как это сделали Zhao

\ Рисунок 5. Производительность модели при использовании различного количества сгенерированных данных.

\ et al. (2023). И мы используем 4 GPU Nvidia 4090 с размером пакета 16 во время обучения. Что касается Swin-L, максимальное количество итераций обучения установлено на 180 000, и модель инициализируется весами, предварительно обученными на ImageNet-22k, поскольку наши ранние эксперименты показывают, что эта инициализация может принести небольшое улучшение по сравнению с весами, обученными с LVIS. И мы используем 4 GPU Nvidia A100 с размером пакета 16 для обучения. Кроме того, из-за большого количества параметров Swin-L дополнительная память, занимаемая сохранением градиента, велика, поэтому мы фактически используем алгоритм в Алгоритме 2.

\ Другие неуказанные параметры также следуют тем же настройкам, что и X-Paste (Zhao et al., 2023), таким как оптимизатор AdamW (Loshchilov and Hutter, 2017) с начальной скоростью обучения 1e−4.

A.4. Количество данных

В этой работе мы сгенерировали более 2 миллионов изображений. Рисунок 5 показывает производительность модели при использовании различного количества сгенерированных данных (1%, 10%, 40%, 70%, 100%). В целом, по мере увеличения количества сгенерированных данных производительность модели также улучшается, но также наблюдаются некоторые колебания. Наш метод всегда лучше базового, что доказывает эффективность и надежность нашего метода.

A.5. Оценка вклада

\ Таким образом, мы по существу вычисляем косинусное сходство. Затем мы провели экспериментальное сравнение, как показано в Таблице 8,

\ Таблица 8. Сравнение использования нормализации градиента или нет.

\ Рисунок 6. Иллюстрация шумных изображений, демонстрирующих различные масштабы шума и категории. Каждый ряд, сверху вниз, обозначает различные уровни шума, конкретно 0, 40, 100, 200 и 400 соответственно. Все изображения взяты из набора данных CIFAR-10.

\ мы можем видеть, что если мы нормализуем градиент, наш метод будет иметь определенное улучшение. Кроме того, поскольку нам нужно поддерживать два разных порога, трудно обеспечить согласованность коэффициента принятия. Поэтому мы принимаем стратегию динамического порога, предварительно устанавливаем коэффициент принятия, поддерживаем очередь для сохранения вклада предыдущей итерации, а затем динамически корректируем порог в соответствии с очередью, так что коэффициент принятия остается на предварительно установленном уровне.

A.6. Игрушечный эксперимент

Ниже приведены конкретные экспериментальные настройки, реализованные на CIFAR-10: мы использовали простой ResNet18 в качестве базовой модели и провели обучение в течение 200 эпох, и точность после обучения на оригинальном обучающем наборе составляет 93.02%. Скорость обучения установлена на 0.1, используя оптимизатор SGD. Действует момент 0.9 с весовым распадом 5e-4. Мы используем планировщик скорости обучения с косинусным затуханием. Сконструированные шумные изображения изображены на Рисунке 6. Наблюдается снижение качества изображения по мере увеличения уровня шума. Примечательно, что когда уровень шума достигает 200, изображения становятся значительно сложными для идентификации. Для Таблицы 1 мы используем Split1 как R, в то время как G состоит из 'Split2 + Noise40', 'Split3 + Noise100', 'Split4 + Noise200',

A.7. Упрощение только один раз вперед

\

:::info Авторы:

(1) Muzhi Zhu, с равным вкладом из Чжэцзянского университета, Китай;

(2) Chengxiang Fan, с равным вкладом из Чжэцзянского университета, Китай;

(3) Hao Chen, Чжэцзянский университет, Китай (haochen.cad@zju.edu.cn);

(4) Yang Liu, Чжэцзянский университет, Китай;

(5) Weian Mao, Чжэцзянский университет, Китай и Университет Аделаиды, Австралия;

(6) Xiaogang Xu, Чжэцзянский университет, Китай;

(7) Chunhua Shen, Чжэцзянский университет, Китай (chunhuashen@zju.edu.cn).

:::


:::info Эта статья доступна на arxiv под лицензией CC BY-NC-ND 4.0 Deed (Attribution-Noncommercial-Noderivs 4.0 International).

:::

\

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу service@support.mexc.com для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Вам также может быть интересно

21 DAO и Tilted объединяются для развития более умной цифровой экономики на базе ИИ в Web3

21 DAO и Tilted объединяются для развития более умной цифровой экономики на базе ИИ в Web3

Пост «21 DAO и Tilted объединяются для развития более умной цифровой экономики на базе ИИ в Web3» появился на BitcoinEthereumNews.com. 21 DAO — это Децентрализованная автономная организация (DAO), которая относится к специфической децентрализованной платформе экономики задач под названием TasKVerse. 21 DAO с радостью вступила в партнерство с Tilted, продвинутой операционной системой на базе искусственного интеллекта (ИИ) для приложений социальных медиа нового поколения. Основная цель этого партнерства — объединить социальные инструменты на базе ИИ с он-чейн сообществом для создания более умной, динамичной и управляемой ИИ цифровой экономики. Мы рады объявить о нашем партнерстве с @tiltedxyz! 🤝🚀 Tilted создает продвинутую операционную систему на базе ИИ для приложений социальных медиа нового поколения — обеспечивая захват событий в реальном времени, рынки труда ИИ, экономики создателей контента и рынок стриминга игр. Вместе,… pic.twitter.com/B3ODzP9zbb — 21 DAO (@21DAO_global) 6 декабря 2025 Платформа Tilted широко известна созданием значительных достижений в приложениях социальных медиа. Tilted обеспечивает захват событий в реальном времени, рынки труда ИИ, экономики создателей контента и рынок стриминга игр. Короче говоря, она берет полный контроль над ИИ для пользы пользователей и создает знаковые инновации. 21 DAO опубликовала эту новость через свой официальный аккаунт в социальной сети X. 21 DAO и Tilted объединяются для создания экосистем создателей контента и игр нового поколения 21 DAO и Tilted заключили соглашение о совместной работе по развитию приложений ИИ, таких как игры, создание экономик и использование труда ИИ. Кроме того, основное внимание этого партнерства направлено на расширение возможностей создания задач на базе ИИ, расширение экономики создателей контента, он-чейн взаимодействие и инструменты роста для развивающихся сообществ Web3. Другими словами, они выходят на передний план, чтобы эффективно и результативно решать вопросы, связанные с ИИ. Они стремятся помочь пользователям с достаточным потоком управляемого ИИ контента и предоставить новые каналы монетизации с продвинутыми инструментами для вознаграждений и он-чейн идентификации. Обеспечение следующей волны инноваций Web3 на базе ИИ Объединение 21 DAO с Tilted открывает новую и...
Поделиться
BitcoinEthereumNews2025/12/07 11:00
Председатель SEC прогнозирует, что Bitcoin станет основой глобальной финансовой системы на фоне криптовалютной трансформации

Председатель SEC прогнозирует, что Bitcoin станет основой глобальной финансовой системы на фоне криптовалютной трансформации

Пост «Председатель SEC прогнозирует, что Биктоин станет основой глобальной финансовой системы на фоне криптовалютной трансформации» появился на BitcoinEthereumNews.com. COINOTAG News сообщает, что в недавнем интервью председатель SEC представил трансформационный взгляд на Биктоин и более широкие криптоактивы. Он предупредил, что эти активы могут стать основой глобальной финансовой системы в течение нескольких лет, сигнализируя о переориентации основных финансов на цифровые платформы. Замечания указывают на политику и рыночную динамику, которые могут формировать институциональные распределения, контроль рисков и нормативные ожидания, поскольку рынки оценивают долгосрочное внедрение. Он также обозначил эту траекторию как направление мирового развития, отметив, что традиционная финансовая инфраструктура, вероятно, будет постепенно переходить на нативную криптотехнологию. Перспектива подразумевает повышенный спрос на надежный хостинг, киберустойчивость и четкие нормативные стандарты для поддержки он-чейн обработки и совместимости блокчейна между активами. Хотя это не гарантия, интервью представляет правдоподобный сценарий для институционального участия и перераспределения потоков капитала в сторону более цифровой, криптовалютной экосистемы. Источник: https://en.coinotag.com/breakingnews/sec-chair-predicts-bitcoin-will-become-the-foundation-of-the-global-financial-system-amid-crypto-native-transformation
Поделиться
BitcoinEthereumNews2025/12/07 11:16
Основные цифровые активы снижаются в осеннем отчете CryptoRank

Основные цифровые активы снижаются в осеннем отчете CryptoRank

Пост «Основные цифровые активы падают в осеннем отчете CryptoRank» появился на BitcoinEthereumNews.com. Десять основных токенов с капитализацией более 500 миллионов $ показали резкое снижение осенью 2025 года. IP возглавил спад с падением на 72%, при этом все перечисленные активы упали более чем на 50%. Данные показывают широкое сезонное изменение цен, поскольку токены средней капитализации столкнулись с равномерным давлением. Несколько высокоценных проектов цифровых активов зафиксировали снижение цен осенью 2025 года, согласно новым данным, опубликованным CryptoRank.io. Данные ранжируют десять наихудших по показателям токенов с рыночной капитализацией выше 500 миллионов $. IP лидирует в падении IP зарегистрировал наибольшее снижение среди перечисленных токенов, упав на 72% за отслеживаемый период. Токен продолжает фиксировать снижение на 4,78% за последние 24 часа, торгуясь по цене 2,18 $ на момент публикации. Это падение поставило его впереди остальных активов в списке и установило верхнюю границу сезонной коррекции. ENA последовал с падением на 64%, в то время как TIA и PENGU каждый показали снижение на 62%. Рейтинг позиционирует эти четыре проекта среди наиболее сильно пострадавших в наборе данных, опубликованном 5 декабря. CRO, который в настоящее время торгуется по цене 0,1037 $ на момент написания, зафиксировал снижение на 61%, продолжая нисходящий тренд, который продолжался в течение нескольких предыдущих месяцев. FET был следующим с 60%, отмечая значительное сокращение. ARB и APT разделили одинаковые потери в 57%, поместив их в средний уровень зарегистрированных снижений. INJ и OP завершили список с падением на 56% каждый. Связанное: Основные разблокировки токенов запланированы на этой неделе в семи проектах Равномерное давление отражает сезонное изменение цен Набор данных CryptoRank не указывает на отдельные факторы, стоящие за снижением каждого актива, но показывает, что все десять проектов испытали потери более 50%. Кроме того, продолжающиеся снижения намекают на то, что изменение цен произошло в различных категориях рынка, а не в рамках одного класса активов. Цифры также совпадают с периодом, когда несколько фондов сократили свои...
Поделиться
BitcoinEthereumNews2025/12/07 11:04