Web Analytics

FlashVID

⭐ 109 stars French by Fanziyang-v

FlashVID : Modèles vidéo à grande échelle efficaces via fusion de tokens spatiotemporels arborescente sans entraînement

Ziyang Fan1Keyu Chen1Ruilong Xing1Yulin Li1Li Jiang2,3Zhuotao Tian1,3* 
1 Institut de Technologie de Harbin (Shenzhen)     2 Université chinoise de Hong Kong (Shenzhen)
3 Institut de la zone de boucle de Shenzhen
*Auteur correspondant
    License       transformers  

🔖Table des matières

🔥Actualités

📋Liste des tâches

✨Points forts

FlashVID Teaser

💡Motivation

Motivation

Dans ce travail, nous identifions deux observations clés sur la redondance spatiotemporelle dans les vidéos :

Pour obtenir une meilleure compression de la redondance spatiotemporelle, nous présentons une solution simple mais efficace : Tree-based Spatiotemporal Token Merging (TSTM) pour une compression fine de la redondance spatiotemporelle, complétée par le module Attention and Diversity-based Token Selection (ADTS) pour la sélection de tokens informatifs.

🌈Méthode

Method

Illustration de FlashVID. Nous compressons les tokens visuels via deux modules synergiques.

📦Installation

Dans ce projet, nous utilisons uv pour la gestion des paquets.

git clone https://github.com/Fanziyang-v/FlashVID.git
cd FlashVID

uv sync

🚀Démarrage rapide

Le code de FlashVID est facile à utiliser et fonctionne immédiatement. Il suffit d'encapsuler le modèle avec la fonction flashvid(). Actuellement, FlashVID prend en charge LLaVA-OneVision, LLaVA-Video, Qwen2.5-VL et Qwen3-VL.

from flashvid import flashvid

model = flashvid( model, retention_ratio=0.1, alpha=0.7, temporal_threshold=0.8, )

📝Remarque : Vous pouvez remplacer les paramètres par défaut (par exemple, le taux de rétention) dans la fonction wrapper flashvid().

Des démonstrations d'inférence sont fournies dans playground/. Voici un exemple en cours d'exécution :

python playground/llava_ov_infer.py \
    --video-path assets/Qgr4dcsY-60.mp4 \
    --question "Describe the video in detail." \
    --num-frames 32 \
    --enable-flashvid

📊Évaluation

Dans ce projet, toutes les expériences sont réalisées en utilisant LMMs-Eval. Nous fournissons des scripts d'évaluation FlashVID dans scripts/, incluant LLaVA-OneVision, LLaVA-Video, Qwen2.5-VL, et Qwen3-VL. Vous pouvez exécuter les scripts pour reproduire nos résultats expérimentaux :

bash scripts/llava_ov.sh

📝Note : Il est extrêmement facile d’intégrer FlashVID dans LMMs-Eval en ajoutant des paramètres spécifiques dans __init__() et en enveloppant le modèle chargé avec la fonction flashvid(). (Voir lmms_eval/models/simple/llava_onevision.py)

👏Remerciements

Ce projet est construit sur des travaux open-source récents : FastV, VisionZip, PruneVID, FastVID, LLaVA-NeXT, Qwen2.5-VL/Qwen3-VL, LMMs-Eval. Merci pour leur excellent travail !

📜Citation

Si vous trouvez ce projet utile dans vos recherches, veuillez envisager de le citer :

@inproceedings{
    fan2026flashvid,
    title={Flash{VID}: Efficient Video Large Language Models via Training-free Tree-based Spatiotemporal Token Merging},
    author={Ziyang Fan and Keyu Chen and Ruilong Xing and Yulin Li and Li Jiang and Zhuotao Tian},
    booktitle={The Fourteenth International Conference on Learning Representations},
    year={2026},
    url={https://openreview.net/forum?id=H6rDX4w6Al}
}

⭐️Star History

Star History Chart

--- Tranlated By Open Ai Tx | Last indexed: 2026-07-03 ---