Web Analytics

photon_infer

⭐ 98 stars Japanese by lumia431

PhotonInfer

vLLMスタイルの連続バッチ処理を備えた高性能LLM推論エンジン

English | 中文 | ライブデモ

License: MIT CUDA C++20


🚀 パフォーマンスハイライト

PhotonInferは、高度なバッチ処理機能を備えたLLMの商用グレード推論性能を提供します。Llama-3.2およびQwen3モデルに対応

単一リクエスト推論

| モデル | PhotonInfer | llama.cpp | スピードアップ | |-------|-------------|-----------|--------------| | Llama 3.2 1B | 185 tok/s | 252 tok/s | 0.73×(llama.cppが高速) |

TTFT(最初のトークン生成時間): 387ms @ 100トークンプラ​​ンプト(INT8量子化)

バッチ推論スループット

| バッチサイズ | PhotonInfer | llama.cpp | スピードアップ | |------------|-------------|-----------|--------------| | 4 | 410 tok/s | 252 tok/s | 1.63× | | 8 | 720 tok/s | 255 tok/s | 2.82× | | 16 | 787 tok/s | 253 tok/s | 3.07× |

テスト環境: NVIDIA A100, Llama 3.2 1B, Q8/INT8量子化

✨ 主な特徴

🎯 vLLMスタイルの連続バッチ処理

GPU最適化カーネル

🏗️ モダンC++20アーキテクチャ

🚀 クイックスタート

前提条件

モデルのダウンロード

すぐに始められる事前量子化モデルをダウンロード:

https://huggingface.co/Lummy666/llama-3.2-1B-Instruct

ビルド

#### オプション1: ソースからビルド

# Clone repository
cd photon_infer

Configure with CUDA

mkdir build && cd build cmake -DCMAKE_BUILD_TYPE=Release -DPHOTON_BUILD_CUDA=ON ..

Build

cmake --build . -j$(nproc)

Install (optional)

sudo cmake --install .
インストール後は、どこからでも直接ウェブサーバーを実行できます:

photon_web_server \
    --port 5728 \
    --model /path/to/llama-3.2-1B-Instruct \
    --tokenizer /path/to/llama-3.2-1B-Instruct/tokenizer.json
インストールは以下の場所に配置されます: アンインストールするには:

cd build
sudo cmake --build . --target uninstall

#### オプション 2: Docker を使用する(推奨)

# Pull the pre-built Docker image
docker pull lumia431/photon_infer:latest

Run the container with GPU support

docker run --rm --gpus all -p 5728:5728 -e PORT=5728 lumia431/photon_infer:latest
ウェブインターフェースは http://localhost:5728 で利用可能です

🔬 技術詳細

INT8 量子化

ページドアテンション

連続バッチスケジューラ

🛣️ ロードマップ

📖 ドキュメント

🤝 貢献について

貢献を歓迎します!ガイドラインはCONTRIBUTING.mdをご覧ください。

📝 ライセンス

MITライセンス - 詳細はLICENSEをご覧ください。

🙏 謝辞

---

高性能なLLM推論のために❤️を込めて作られました

--- Tranlated By Open Ai Tx | Last indexed: 2026-03-22 ---