Web Analytics

FlashVID

⭐ 109 stars Korean by Fanziyang-v

FlashVID: 훈련 불필요한 트리 기반 시공간 토큰 병합을 통한 효율적인 비디오 대형 언어 모델

Ziyang Fan1Keyu Chen1Ruilong Xing1Yulin Li1Li Jiang2,3Zhuotao Tian1,3* 
1 하얼빈 공과대학교 (선전)     2 홍콩중문대학교 (선전)
3 선전 루프 에어리어 연구소
*교신저자
    License       transformers  

🔖목차

🔥뉴스

📋해야 할 일 목록

✨주요 내용

FlashVID 티저

💡동기

동기

본 연구에서는 비디오 내 시공간 중복에 대해 두 가지 주요 관찰을 했습니다:

더 나은 시공간 중복 압축을 위해, 우리는 미세한 시공간 중복 압축을 위한 간단하지만 효과적인 방법인 트리 기반 시공간 토큰 병합(TSTM)과 정보성 토큰 선정을 위한 어텐션 및 다양성 기반 토큰 선택(ADTS) 모듈을 함께 제안합니다.

🌈방법

방법

FlashVID 개요. 우리는 두 가지 시너지 모듈로 시각 토큰을 압축합니다.

📦설치

이 프로젝트에서는 패키지 관리를 위해 uv를 사용합니다.

git clone https://github.com/Fanziyang-v/FlashVID.git
cd FlashVID
uv sync

🚀빠른 시작

FlashVID의 코드는 사용하기 쉽고 바로 작동합니다. 모델을 flashvid() 함수로 감싸기만 하면 됩니다. 현재 FlashVID는 LLaVA-OneVision, LLaVA-Video, Qwen2.5-VL, Qwen3-VL을 지원합니다.

from flashvid import flashvid

model = flashvid( model, retention_ratio=0.1, alpha=0.7, temporal_threshold=0.8, )

📝참고: 기본 매개변수(예: 유지 비율)는 flashvid() 래퍼 함수에서 재정의할 수 있습니다.

추론 데모는 playground/에 제공됩니다. 실행 예시는 다음과 같습니다:

python playground/llava_ov_infer.py \
    --video-path assets/Qgr4dcsY-60.mp4 \
    --question "Describe the video in detail." \
    --num-frames 32 \
    --enable-flashvid

📊평가

이 프로젝트에서는 모든 실험이 LMMs-Eval을 사용하여 수행됩니다. scripts/에는 LLaVA-OneVision, LLaVA-Video, Qwen2.5-VL, Qwen3-VL을 포함한 FlashVID 평가 스크립트가 제공됩니다. 스크립트를 실행하여 우리의 실험 결과를 재현할 수 있습니다:

bash scripts/llava_ov.sh

📝참고: __init__()에 특정 매개변수를 추가하고 로드된 모델을 flashvid() 함수로 감싸기만 하면 FlashVID를 LMMs-Eval에 매우 쉽게 통합할 수 있습니다. (lmms_eval/models/simple/llava_onevision.py 참고)

👏감사의 글

이 프로젝트는 최근 오픈소스 작업들을 기반으로 구축되었습니다: FastV, VisionZip, PruneVID, FastVID, LLaVA-NeXT, Qwen2.5-VL/Qwen3-VL, LMMs-Eval. 이들의 훌륭한 작업에 감사드립니다!

📜인용

이 프로젝트가 연구에 유용하다면, 인용을 고려해 주시기 바랍니다:

@inproceedings{
    fan2026flashvid,
    title={Flash{VID}: Efficient Video Large Language Models via Training-free Tree-based Spatiotemporal Token Merging},
    author={Ziyang Fan and Keyu Chen and Ruilong Xing and Yulin Li and Li Jiang and Zhuotao Tian},
    booktitle={The Fourteenth International Conference on Learning Representations},
    year={2026},
    url={https://openreview.net/forum?id=H6rDX4w6Al}
}

⭐️Star History

Star History Chart

--- Tranlated By Open Ai Tx | Last indexed: 2026-07-03 ---