Web Analytics

FlashVID

⭐ 109 stars Spanish by Fanziyang-v

FlashVID: Modelos de Lenguaje Grandes para Video Eficientes mediante Fusión de Tokens Espaciotemporales Basada en Árbol sin Entrenamiento

Ziyang Fan1Keyu Chen1Ruilong Xing1Yulin Li1Li Jiang2,3Zhuotao Tian1,3* 
1 Instituto de Tecnología de Harbin (Shenzhen)     2 Universidad China de Hong Kong (Shenzhen)
3 Instituto del Área Loop de Shenzhen
*Autor Correspondiente
    License       transformers  

🔖Tabla de Contenidos

🔥Noticias

📋Lista de tareas

✨Aspectos destacados

FlashVID Teaser

💡Motivación

Motivation

En este trabajo, identificamos dos observaciones clave sobre la redundancia espaciotemporal en videos:

Para lograr una mejor compresión de la redundancia espaciotemporal, presentamos una solución simple pero efectiva: Fusión de Tokens Espaciotemporales basada en Árbol (TSTM) para compresión detallada de redundancia espaciotemporal, complementada con el módulo Selección de Tokens basada en Atención y Diversidad (ADTS) para la selección de tokens informativos.

🌈Método

Method

Ilustración de FlashVID. Comprimimos tokens visuales mediante dos módulos sinérgicos.

📦Instalación

En este proyecto, usamos uv para la gestión de paquetes.

git clone https://github.com/Fanziyang-v/FlashVID.git
cd FlashVID

uv sync

🚀Inicio rápido

El código de FlashVID es fácil de usar y funciona desde el primer momento. Simplemente envuelve el modelo con la función flashvid(). Actualmente, FlashVID soporta LLaVA-OneVision, LLaVA-Video, Qwen2.5-VL y Qwen3-VL.

from flashvid import flashvid

model = flashvid( model, retention_ratio=0.1, alpha=0.7, temporal_threshold=0.8, )

📝Nota: Puedes sobrescribir los parámetros predeterminados (por ejemplo, la tasa de retención) en la función envoltorio flashvid().

Las demostraciones de inferencia se proporcionan en playground/. Aquí hay un ejemplo en ejecución:

python playground/llava_ov_infer.py \
    --video-path assets/Qgr4dcsY-60.mp4 \
    --question "Describe the video in detail." \
    --num-frames 32 \
    --enable-flashvid

📊Evaluación

En este proyecto, todos los experimentos se realizan utilizando LMMs-Eval. Proporcionamos scripts de evaluación FlashVID en scripts/, incluyendo LLaVA-OneVision, LLaVA-Video, Qwen2.5-VL y Qwen3-VL. Puedes ejecutar los scripts para reproducir nuestros resultados experimentales:

bash scripts/llava_ov.sh

📝Nota: Es extremadamente fácil integrar FlashVID en LMMs-Eval añadiendo parámetros específicos en __init__() y envolviendo el modelo cargado con la función flashvid(). (Ver lmms_eval/models/simple/llava_onevision.py)

👏Agradecimientos

Este proyecto se basa en trabajos recientes de código abierto: FastV, VisionZip, PruneVID, FastVID, LLaVA-NeXT, Qwen2.5-VL/Qwen3-VL, LMMs-Eval. ¡Gracias por su excelente trabajo!

📜Citación

Si encuentra este proyecto útil en su investigación, por favor considere citar:

@inproceedings{
    fan2026flashvid,
    title={Flash{VID}: Efficient Video Large Language Models via Training-free Tree-based Spatiotemporal Token Merging},
    author={Ziyang Fan and Keyu Chen and Ruilong Xing and Yulin Li and Li Jiang and Zhuotao Tian},
    booktitle={The Fourteenth International Conference on Learning Representations},
    year={2026},
    url={https://openreview.net/forum?id=H6rDX4w6Al}
}

⭐️Star History

Star History Chart

--- Tranlated By Open Ai Tx | Last indexed: 2026-07-03 ---