Web Analytics

FlashVID

⭐ 109 stars Simplified Chinese by Fanziyang-v

FlashVID:通过无训练树状时空令牌合并实现高效视频大语言模型

范子阳1陈可昱1邢睿龙1李宇林1姜立2,3田卓涛1,3* 
1 哈尔滨工业大学(深圳)     2 香港中文大学(深圳)
3 深圳环区研究院
*通讯作者
    License       transformers  

🔖目录

🔥新闻

📋待办事项

✨亮点

FlashVID Teaser

💡动机

Motivation

在本工作中,我们发现视频时空冗余有两个关键观察:

为了实现更好的时空冗余压缩,我们提出了一个 简单而有效 的解决方案:基于树的时空令牌合并(TSTM),用于细粒度时空冗余压缩,并辅以 基于注意力与多样性的令牌选择(ADTS) 模块以选择信息丰富的令牌。

🌈方法

Method

FlashVID 说明。我们通过两个协同模块压缩视觉令牌。

📦安装

在本项目中,我们使用 uv 进行包管理。

git clone https://github.com/Fanziyang-v/FlashVID.git
cd FlashVID

uv sync

🚀快速开始

FlashVID 的代码易于使用,开箱即用。只需用 flashvid() 函数包装模型即可。目前,FlashVID 支持 LLaVA-OneVision、LLaVA-Video、Qwen2.5-VL 和 Qwen3-VL。

from flashvid import flashvid

model = flashvid( model, retention_ratio=0.1, alpha=0.7, temporal_threshold=0.8, )

📝注意:您可以在 flashvid() 包装函数中覆盖默认参数(例如,保留比例)。

推理演示在 playground/ 中提供。以下是一个运行示例:

python playground/llava_ov_infer.py \
    --video-path assets/Qgr4dcsY-60.mp4 \
    --question "Describe the video in detail." \
    --num-frames 32 \
    --enable-flashvid

📊评估

在本项目中,所有实验均使用LMMs-Eval进行。我们在scripts/中提供了FlashVID评估脚本,包括LLaVA-OneVision、LLaVA-Video、Qwen2.5-VL和Qwen3-VL。您可以运行这些脚本来复现我们的实验结果:

bash scripts/llava_ov.sh

📝注意:通过在__init__()中添加特定参数并用flashvid()函数包装加载的模型,将FlashVID集成到LMMs-Eval中非常简单。(参见lmms_eval/models/simple/llava_onevision.py

👏致谢

本项目基于以下近期开源工作构建:FastVVisionZipPruneVIDFastVIDLLaVA-NeXTQwen2.5-VL/Qwen3-VLLMMs-Eval。感谢他们的卓越工作!

📜引用

如果您在研究中发现本项目有用,请考虑引用:

@inproceedings{
    fan2026flashvid,
    title={Flash{VID}: Efficient Video Large Language Models via Training-free Tree-based Spatiotemporal Token Merging},
    author={Ziyang Fan and Keyu Chen and Ruilong Xing and Yulin Li and Li Jiang and Zhuotao Tian},
    booktitle={The Fourteenth International Conference on Learning Representations},
    year={2026},
    url={https://openreview.net/forum?id=H6rDX4w6Al}
}

⭐️Star History

Star History Chart

--- Tranlated By Open Ai Tx | Last indexed: 2026-07-03 ---