[arXiv] On-device Sora：实现基于扩散的移动设备文本到视频生成

论文：https://arxiv.org/abs/2502.04363

[arXiv] On-device Sora：实现基于扩散的移动设备文本到视频生成的代码实现。参考基础代码 -> Open-Sora：为所有人民主化高效视频制作

介绍

本仓库提供了On-device Sora的代码，这是论文On-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devices的开源实现。

On-device Sora 应用了线性比例跃迁（LPL）、时间维度令牌合并（TDTM）和动态加载并发推理（CI-DL），以实现 iPhone 15 Pro 上高效的视频生成。

On-Device_Sora

Open-Sora 是 On-Device Sora 的基线模型，一个视频生成开源项目，是一个能够基于文本输入生成视频的 T2V 扩散模型。

cd Device_conversion conda create -n convert python=3.10 conda activate convert pip install -r requirements/requirements-convert.txt

pip install -v .

cd t5
python3 export-t5.py

cd stdit3
python3 export-stdit3.py

当你运行export-vae-spatial.py时，会出现Fatal Python error: PyEval_SaveThread错误。为了解决此错误，你应该每次只运行一个VAE部分的代码块。将其余部分注释掉。

cd vae
for vae's temporal part
python3 export-vae-temporal.py
for vae's spatial part
python3 export-vae-spatial.py

您可以从以下链接下载并使用已转换的模型。[下载]

--- Tranlated By Open Ai Tx | Last indexed: 2026-02-18 ---