Web Analytics

FlashVID

⭐ 109 stars Japanese by Fanziyang-v

FlashVID: トレーニング不要の木構造ベース時空間トークンマージによる効率的な動画大規模言語モデル

Ziyang Fan1Keyu Chen1Ruilong Xing1Yulin Li1Li Jiang2,3Zhuotao Tian1,3* 
1 ハルビン工業大学(深セン)     2 香港中文大学(深セン)
3 深圳ループエリア研究所
*責任著者
    License       transformers  

🔖目次

🔥ニュース

📋Todo リスト

✨ハイライト

FlashVID Teaser

💡動機

Motivation

本研究では、動画の時空間冗長性に関して二つの重要な観察を行いました:

より良い時空間冗長圧縮を達成するために、我々は シンプルかつ効果的な 解決策として、細粒度の時空間冗長圧縮を実現する ツリーベースの時空間トークンマージ(TSTM) と、情報量の多いトークン選択のための 注意力と多様性に基づくトークン選択(ADTS) モジュールを提案します。

🌈手法

Method

FlashVID の概要図。我々は二つの相乗効果を持つモジュールによって視覚トークンを圧縮します。

📦インストール

このプロジェクトでは、パッケージ管理にuvを使用します。

git clone https://github.com/Fanziyang-v/FlashVID.git
cd FlashVID

uv sync

🚀クイックスタート

FlashVIDのコードは使いやすく、そのまま動作します。モデルをflashvid()関数でラップするだけです。現在、FlashVIDはLLaVA-OneVision、LLaVA-Video、Qwen2.5-VL、Qwen3-VLをサポートしています。

from flashvid import flashvid

model = flashvid( model, retention_ratio=0.1, alpha=0.7, temporal_threshold=0.8, )

📝注意: flashvid() ラッパー関数内でデフォルトパラメータ(例:保持率)を上書きできます。

推論デモは playground/ に用意されています。以下は実行例です:

python playground/llava_ov_infer.py \
    --video-path assets/Qgr4dcsY-60.mp4 \
    --question "Describe the video in detail." \
    --num-frames 32 \
    --enable-flashvid

📊評価

このプロジェクトでは、すべての実験をLMMs-Evalを使用して実施しています。scripts/にFlashVID評価スクリプトを提供しており、LLaVA-OneVision、LLaVA-Video、Qwen2.5-VL、Qwen3-VLが含まれています。スクリプトを実行することで、私たちの実験結果を再現できます。

bash scripts/llava_ov.sh

📝注意: FlashVIDをLMMs-Evalに統合するのは非常に簡単で、__init__()に特定のパラメータを追加し、読み込んだモデルをflashvid()関数でラップするだけです。(詳細はlmms_eval/models/simple/llava_onevision.pyを参照)

👏謝辞

本プロジェクトは以下の最近のオープンソース作品に基づいています:FastVVisionZipPruneVIDFastVIDLLaVA-NeXTQwen2.5-VL/Qwen3-VLLMMs-Eval。優れた成果に感謝します!

📜引用

本プロジェクトが研究に役立った場合は、ぜひ以下を引用してください:

@inproceedings{
    fan2026flashvid,
    title={Flash{VID}: Efficient Video Large Language Models via Training-free Tree-based Spatiotemporal Token Merging},
    author={Ziyang Fan and Keyu Chen and Ruilong Xing and Yulin Li and Li Jiang and Zhuotao Tian},
    booktitle={The Fourteenth International Conference on Learning Representations},
    year={2026},
    url={https://openreview.net/forum?id=H6rDX4w6Al}
}

⭐️Star History

Star History Chart

--- Tranlated By Open Ai Tx | Last indexed: 2026-07-03 ---