[arXiv] On-device Sora: モバイルデバイス向け拡散ベースのテキストから動画生成の実現
- コードはOpen-Soraの実装を基にしています
[arXiv] On-device Sora: モバイルデバイス向け拡散ベースのテキストから動画生成の実装コード。 参照ベースコード -> Open-Sora : すべての人のための効率的な動画制作の民主化
はじめに
このリポジトリは、On-device Soraのコードを提供しており、これはOn-device Sora: Enabling Diffusion-Based Text-to-Video Generation for Mobile Devicesという論文のオープンソース実装です。
On-Device Sora
On-device Soraは、Linear Proportional Leap (LPL)、Temporal Dimension Token Merging (TDTM)、およびConcurrent Inference with Dynamic Loading (CI-DL)を適用し、iPhone 15 Proで効率的な動画生成を可能にしています。
Open-Sora
Open-Soraは、On-Device Soraのベースラインモデルであり、テキスト入力に基づいて動画を生成可能なT2V拡散モデルのオープンソースプロジェクトです。
各モデルをOn-device Sora用のMLPackageに変換する方法
パッケージ依存関係
依存関係
cd Device_conversionconda create -n convert python=3.10
conda activate convert
pip install -r requirements/requirements-convert.txt
pip install -v .
変換
T5 変換
cd t5
python3 export-t5.pySTDiT カバリング
cd stdit3
python3 export-stdit3.pyVAE変換
export-vae-spatial.pyを実行すると、Fatal Python error: PyEval_SaveThreadというエラーが発生することがあります。
このエラーを解決するには、VAEの各部分に対して1つのコードブロックのみを実行してください。残りはコメントアウトしてください。cd vaefor vae's temporal part
python3 export-vae-temporal.pyfor vae's spatial part
python3 export-vae-spatial.py使い方
必須
- xcode用のMacデバイス
- アプリをビルドして起動するためのAppleアカウント
- iPhone: iPhone 15 pro以上
- iOSバージョン: 18以上
- すべてのMLPackage(T5、STDiT、VAE)
変換済みMLPackageのダウンロード(各モデルをMLPackageに変換したくない場合)
以下のリンクから変換済みモデルをダウンロードして使用できます。[ダウンロード]
アプリの実行
- On-device/On-device-Sora.xcodeprojをクリックしてxcodeプロジェクトを実装
- TARGETS/Signing&Capabilitiesでチームを変更(None -> あなたのAppleアカウント)
- アプリを起動
実例のアーティファクト

--- Tranlated By Open Ai Tx | Last indexed: 2026-02-18 ---