🌐 Язык

🚀 Нет времени на обучение!

Сегментация объектов по образцу без обучения

Передовые методы (Papers with Code) _SOTA 1-shot_ | -21CBCE?style=flat&logo=paperswithcode)

_SOTA 10-shot_ | -21CBCE?style=flat&logo=paperswithcode)

_SOTA 30-shot_ | -21CBCE?style=flat&logo=paperswithcode)

🚨 Обновление (22 июля 2025): Добавлены инструкции для пользовательских датасетов!

🔔 Обновление (16 июля 2025): Код обновлён с инструкциями!

📋 Оглавление

🎯 Основные моменты
📜 Аннотация
🧠 Архитектура
🛠️ Инструкции по установке
1. Клонировать репозиторий
2. Создать окружение conda
3. Установить SAM2 и DinoV2
4. Скачать датасеты
5. Скачать контрольные точки SAM2 и DinoV2
📊 Код для инференса: Воспроизвести SOTA результаты 30-shot на Few-shot COCO
0. Создать референсный набор
1. Заполнить память референсами
2. Постобработка банка памяти
3. Инференс на целевых изображениях
Результаты

🔍 Пользовательский набор данных
0. Подготовка пользовательского набора данных ⛵🐦
0.1 Если доступны только аннотации bbox
0.2 Конвертация аннотаций COCO в файл pickle
1. Заполнить память эталонными данными
2. Постобработка банка памяти
📚 Цитирование

🎯 Основные моменты

💡 Без обучения: Без дообучения, без подбора подсказок — только эталонное изображение.
🖼️ На основе эталона: Сегментация новых объектов с помощью всего нескольких примеров.
🔥 SOTA-результаты: Превосходит предыдущие безобучающие методы на COCO, PASCAL VOC и Cross-Domain FSOD.

Ссылки:

📜 Аннотация

The performance of image segmentation models has historically been constrained by the high cost of collecting large-scale annotated data. The Segment Anything Model (SAM) alleviates this original problem through a promptable, semantics-agnostic, segmentation paradigm and yet still requires manual visual-prompts or complex domain-dependent prompt-generation rules to process a new image. Towards reducing this new burden, our work investigates the task of object segmentation when provided with, alternatively, only a small set of reference images. Our key insight is to leverage strong semantic priors, as learned by foundation models, to identify corresponding regions between a reference and a target image. We find that correspondences enable automatic generation of instance-level segmentation masks for downstream tasks and instantiate our ideas via a multi-stage, training-free method incorporating (1) memory bank construction; (2) representation aggregation and (3) semantic-aware feature matching. Our experiments show significant improvements on segmentation metrics, leading to state-of-the-art performance on COCO FSOD (36.8% nAP), PASCAL VOC Few-Shot (71.2% nAP50) and outperforming existing training-free approaches on the Cross-Domain FSOD benchmark (22.4% nAP).

cdfsod-results-final-comic-sans-min

🧠 Architecture

training-free-architecture-comic-sans-min

🛠️ Installation instructions

1. Clone the repository

git clone https://github.com/miquel-espinosa/no-time-to-train.git
cd no-time-to-train

2. Создайте окружение conda

Мы создадим окружение conda с необходимыми пакетами.

conda env create -f environment.yml
conda activate no-time-to-train

3. Установка SAM2 и DinoV2

Мы установим SAM2 и DinoV2 из исходных кодов.

pip install -e .
cd dinov2
pip install -e .
cd ..

4. Загрузка наборов данных

Пожалуйста, скачайте набор данных COCO и поместите его в data/coco

5. Загрузка контрольных точек SAM2 и DinoV2

Мы загрузим именно те контрольные точки SAM2, которые использовались в статье. (Обратите внимание, что контрольные точки SAM2.1 уже доступны и могут работать лучше.)

mkdir -p checkpoints/dinov2
cd checkpoints
wget https://dl.fbaipublicfiles.com/segment_anything_2/072824/sam2_hiera_large.pt
cd dinov2
wget https://dl.fbaipublicfiles.com/dinov2/dinov2_vitl14/dinov2_vitl14_pretrain.pth
cd ../..

📊 Код для инференса

⚠️ Отказ от ответственности: Это исследовательский код — ожидайте некоторого хаоса!

Воспроизведение результатов SOTA с 30 примерами на Few-shot COCO

Определите полезные переменные и создайте папку для результатов:

CONFIG=./no_time_to_train/new_exps/coco_fewshot_10shot_Sam2L.yaml
CLASS_SPLIT="few_shot_classes"
RESULTS_DIR=work_dirs/few_shot_results
SHOTS=30
SEED=33
GPUS=4mkdir -p $RESULTS_DIR
FILENAME=few_shot_${SHOTS}shot_seed${SEED}.pkl

#### 0. Создайте эталонный набор

python no_time_to_train/dataset/few_shot_sampling.py \
        --n-shot $SHOTS \
        --out-path ${RESULTS_DIR}/${FILENAME} \
        --seed $SEED \
        --dataset $CLASS_SPLIT

#### 1. Заполните память ссылками

python run_lightening.py test --config $CONFIG \
                              --model.test_mode fill_memory \
                              --out_path ${RESULTS_DIR}/memory.ckpt \
                              --model.init_args.model_cfg.memory_bank_cfg.length $SHOTS \
                              --model.init_args.dataset_cfgs.fill_memory.memory_pkl ${RESULTS_DIR}/${FILENAME} \
                              --model.init_args.dataset_cfgs.fill_memory.memory_length $SHOTS \
                              --model.init_args.dataset_cfgs.fill_memory.class_split $CLASS_SPLIT \
                              --trainer.logger.save_dir ${RESULTS_DIR}/ \
                              --trainer.devices $GPUS

#### 2. Постобработка банка памяти

python run_lightening.py test --config $CONFIG \
                              --model.test_mode postprocess_memory \
                              --model.init_args.model_cfg.memory_bank_cfg.length $SHOTS \
                              --ckpt_path ${RESULTS_DIR}/memory.ckpt \
                              --out_path ${RESULTS_DIR}/memory_postprocessed.ckpt \
                              --trainer.devices 1

#### 3. Инференс на целевых изображениях

python run_lightening.py test --config $CONFIG  \
                              --ckpt_path ${RESULTS_DIR}/memory_postprocessed.ckpt \
                              --model.init_args.test_mode test \
                              --model.init_args.model_cfg.memory_bank_cfg.length $SHOTS \
                              --model.init_args.model_cfg.dataset_name $CLASS_SPLIT \
                              --model.init_args.dataset_cfgs.test.class_split $CLASS_SPLIT \
                              --trainer.logger.save_dir ${RESULTS_DIR}/ \
                              --trainer.devices $GPUS

Если вы хотите видеть результаты вывода онлайн (по мере их вычисления), добавьте аргумент:

    --model.init_args.model_cfg.test.online_vis True

Чтобы настроить пороговое значение параметра score_thr, добавьте аргумент (например, для визуализации всех экземпляров с оценкой выше 0.4):

    --model.init_args.model_cfg.test.vis_thr 0.4

Изображения теперь будут сохраняться в results_analysis/few_shot_classes/. Изображение слева показывает эталонное значение, изображение справа показывает сегментированные экземпляры, найденные нашим методом без обучения.

Обратите внимание, что в этом примере мы используем разбиение few_shot_classes, поэтому мы должны ожидать увидеть только сегментированные экземпляры классов из этого разбиения (а не всех классов COCO).

#### Результаты

После обработки всех изображений из набора для валидации вы должны получить:

BBOX RESULTS:
  Average Precision  (AP) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.368SEGM RESULTS:
  Average Precision  (AP) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.342

🔍 Пользовательский датасет

Мы предоставляем инструкции по запуску нашего пайплайна на пользовательском датасете. Формат аннотаций всегда COCO.

Кратко; Чтобы сразу увидеть, как запустить полный пайплайн на пользовательских датасетах, смотрите scripts/matching_cdfsod_pipeline.sh вместе с примерами скриптов для датасетов CD-FSOD (например, scripts/dior_fish.sh)

0. Подготовьте пользовательский датасет ⛵🐦

Представим, что мы хотим обнаруживать лодки⛵ и птиц🐦 в пользовательском датасете. Чтобы использовать наш метод, потребуется:

Как минимум 1 аннотированное эталонное изображение для каждого класса (т.е. 1 эталон для лодки и 1 эталон для птицы)
Несколько целевых изображений для поиска экземпляров нужных нам классов.

Мы подготовили простой скрипт для создания пользовательского датасета с изображениями coco для 1-shot сценария.

mkdir -p data/my_custom_dataset
python scripts/make_custom_dataset.py

Это создаст пользовательский набор данных со следующей структурой папок:

data/my_custom_dataset/
    ├── annotations/
    │   ├── custom_references.json
    │   ├── custom_targets.json
    │   └── references_visualisations/
    │       ├── bird_1.jpg
    │       └── boat_1.jpg
    └── images/
        ├── 429819.jpg
        ├── 101435.jpg
        └── (all target and reference images)

Визуализация эталонных изображений (1-shot):

0.1 Если доступны только аннотации bbox

Мы также предоставляем скрипт для генерации масок сегментации объектов с помощью SAM2. Это полезно, если для эталонных изображений доступны только аннотации ограничивающими рамками.

# Download sam_h checkpoint. Feel free to use more recent checkpoints (note: code might need to be adapted)
wget https://dl.fbaipublicfiles.com/segment_anything/sam_vit_h_4b8939.pth -O checkpoints/sam_vit_h_4b8939.pth
Run automatic instance segmentation from ground truth bounding boxes.
python no_time_to_train/dataset/sam_bbox_to_segm_batch.py \
    --input_json data/my_custom_dataset/annotations/custom_references.json \
    --image_dir data/my_custom_dataset/images \
    --sam_checkpoint checkpoints/sam_vit_h_4b8939.pth \
    --model_type vit_h \
    --device cuda \
    --batch_size 8 \
    --visualize

Референсные изображения с масками сегментации на уровне экземпляра (сгенерировано SAM2 из gt-баундинг-боксов, 1-shot):

Визуализация сгенерированных масок сегментации сохранена в data/my_custom_dataset/annotations/custom_references_with_SAM_segm/references_visualisations/.

| 1-shot референсное изображение ПТИЦЫ 🐦 (автоматически сегментировано SAM) | 1-shot референсное изображение ЛОДКИ ⛵ (автоматически сегментировано SAM) | |:---------------------------------:|:----------------------------------:| | bird_1_with_SAM_segm | boat_1_with_SAM_segm |

0.2 Конвертация аннотаций coco в файл pickle

python no_time_to_train/dataset/coco_to_pkl.py \
    data/my_custom_dataset/annotations/custom_references_with_segm.json \
    data/my_custom_dataset/annotations/custom_references_with_segm.pkl \
    1

1. Заполните память ссылками

Сначала определите полезные переменные и создайте папку для результатов. Для корректной визуализации меток имена классов должны быть упорядочены по id категории, как указано в файле json. Например, у bird id категории 16, у boat id категории 9. Следовательно, CAT_NAMES=boat,bird.

DATASET_NAME=my_custom_dataset
DATASET_PATH=data/my_custom_dataset
CAT_NAMES=boat,bird
CATEGORY_NUM=2
SHOT=1
YAML_PATH=no_time_to_train/pl_configs/matching_cdfsod_template.yaml
PATH_TO_SAVE_CKPTS=./tmp_ckpts/my_custom_dataset
mkdir -p $PATH_TO_SAVE_CKPTS

Выполните шаг 1:

python run_lightening.py test --config $YAML_PATH \
    --model.test_mode fill_memory \
    --out_path $PATH_TO_SAVE_CKPTS/$DATASET_NAME\_$SHOT\_refs_memory.pth \
    --model.init_args.dataset_cfgs.fill_memory.root $DATASET_PATH/images \
    --model.init_args.dataset_cfgs.fill_memory.json_file $DATASET_PATH/annotations/custom_references_with_segm.json \
    --model.init_args.dataset_cfgs.fill_memory.memory_pkl $DATASET_PATH/annotations/custom_references_with_segm.pkl \
    --model.init_args.dataset_cfgs.fill_memory.memory_length $SHOT \
    --model.init_args.dataset_cfgs.fill_memory.cat_names $CAT_NAMES \
    --model.init_args.model_cfg.dataset_name $DATASET_NAME \
    --model.init_args.model_cfg.memory_bank_cfg.length $SHOT \
    --model.init_args.model_cfg.memory_bank_cfg.category_num $CATEGORY_NUM \
    --trainer.devices 1

2. Постобработка банка памяти

python run_lightening.py test --config $YAML_PATH \
    --model.test_mode postprocess_memory \
    --ckpt_path $PATH_TO_SAVE_CKPTS/$DATASET_NAME\_$SHOT\_refs_memory.pth \
    --out_path $PATH_TO_SAVE_CKPTS/$DATASET_NAME\_$SHOT\_refs_memory_postprocessed.pth \
    --model.init_args.model_cfg.dataset_name $DATASET_NAME \
    --model.init_args.model_cfg.memory_bank_cfg.length $SHOT \
    --model.init_args.model_cfg.memory_bank_cfg.category_num $CATEGORY_NUM \
    --trainer.devices 1

#### 2.1 Визуализация постобработанного банка памяти

python run_lightening.py test --config $YAML_PATH \
    --model.test_mode vis_memory \
    --ckpt_path $PATH_TO_SAVE_CKPTS/$DATASET_NAME\_$SHOT\_refs_memory_postprocessed.pth \
    --model.init_args.dataset_cfgs.fill_memory.root $DATASET_PATH/images \
    --model.init_args.dataset_cfgs.fill_memory.json_file $DATASET_PATH/annotations/custom_references_with_segm.json \
    --model.init_args.dataset_cfgs.fill_memory.memory_pkl $DATASET_PATH/annotations/custom_references_with_segm.pkl \
    --model.init_args.dataset_cfgs.fill_memory.memory_length $SHOT \
    --model.init_args.dataset_cfgs.fill_memory.cat_names $CAT_NAMES \
    --model.init_args.model_cfg.dataset_name $DATASET_NAME \
    --model.init_args.model_cfg.memory_bank_cfg.length $SHOT \
    --model.init_args.model_cfg.memory_bank_cfg.category_num $CATEGORY_NUM \
    --trainer.devices 1

Визуализации PCA и K-means для изображений из банка памяти сохраняются в results_analysis/memory_vis/my_custom_dataset.

3. Инференс на целевых изображениях

Если ONLINE_VIS установлен в True, результаты предсказания будут сохранены в results_analysis/my_custom_dataset/ и отображаться по мере вычисления. ОБРАТИТЕ ВНИМАНИЕ, что запуск с онлайн-визуализацией значительно медленнее.

Вы можете свободно изменять порог оценки VIS_THR, чтобы видеть больше или меньше сегментированных экземпляров.

ONLINE_VIS=True
VIS_THR=0.4
python run_lightening.py test --config $YAML_PATH \
    --model.test_mode test \
    --ckpt_path $PATH_TO_SAVE_CKPTS/$DATASET_NAME\_$SHOT\_refs_memory_postprocessed.pth \
    --model.init_args.model_cfg.dataset_name $DATASET_NAME \
    --model.init_args.model_cfg.memory_bank_cfg.length $SHOT \
    --model.init_args.model_cfg.memory_bank_cfg.category_num $CATEGORY_NUM \
    --model.init_args.model_cfg.test.imgs_path $DATASET_PATH/images \
    --model.init_args.model_cfg.test.online_vis $ONLINE_VIS \
    --model.init_args.model_cfg.test.vis_thr $VIS_THR \
    --model.init_args.dataset_cfgs.test.root $DATASET_PATH/images \
    --model.init_args.dataset_cfgs.test.json_file $DATASET_PATH/annotations/custom_targets.json \
    --model.init_args.dataset_cfgs.test.cat_names $CAT_NAMES \
    --trainer.devices 1

Результаты

Показатели производительности (с теми же параметрами, что и в приведённых выше командах), должны быть следующими:

BBOX RESULTS:
  Average Precision  (AP) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.478SEGM RESULTS:
  Average Precision  (AP) @[ IoU=0.50:0.95 | area=   all | maxDets=100 ] = 0.458

Визуальные результаты сохраняются в results_analysis/my_custom_dataset/. Обратите внимание, что наш метод работает и для ложноотрицательных случаев, то есть для изображений, на которых отсутствуют экземпляры нужных классов.

Нажмите на изображения, чтобы увеличить ⬇️

| Целевое изображение с лодками ⛵ (слева GT, справа предсказания) | Целевое изображение с птицами 🐦 (слева GT, справа предсказания) | |:----------------------:|:----------------------:| | 000000459673 | 000000407180 |

| Целевое изображение с лодками и птицами ⛵🐦 (слева GT, справа предсказания) | Целевое изображение без лодок и птиц 🚫 (слева GT, справа предсказания) | |:---------------------------------:|:----------------------------------:| | 000000517410 | 000000460598 |

📚 Цитирование

Если вы используете эту работу, пожалуйста, цитируйте нас:

@article{espinosa2025notimetotrain,
  title={No time to train! Training-Free Reference-Based Instance Segmentation},
  author={Miguel Espinosa and Chenhongyi Yang and Linus Ericsson and Steven McDonagh and Elliot J. Crowley},
  journal={arXiv preprint arXiv:2507.02798},
  year={2025},
  primaryclass={cs.CV}
}

--- Tranlated By Open Ai Tx | Last indexed: 2026-01-15 ---