Web Analytics

photon_infer

⭐ 98 stars Simplified Chinese by lumia431

PhotonInfer

一个具有 vLLM 风格连续批处理的高性能大型语言模型推理引擎

English | 中文 | 在线演示

许可证: MIT CUDA C++20


🚀 性能亮点

PhotonInfer 为大型语言模型提供生产级推理性能,具备先进的批处理能力。支持 Llama-3.2 和 Qwen3 模型

单次请求推理

| 模型 | PhotonInfer | llama.cpp | 加速比 | |-------|-------------|-----------|---------| | Llama 3.2 1B | 185 词元/秒 | 252 词元/秒 | 0.73×(llama.cpp 更快) |

TTFT(首个词元时间):387 毫秒 @ 100 词元提示(INT8 量化)

批量推理吞吐量

| 批量大小 | PhotonInfer | llama.cpp | 加速比 | |------------|-------------|-----------|---------| | 4 | 410 词元/秒 | 252 词元/秒 | 1.63× | | 8 | 720 词元/秒 | 255 词元/秒 | 2.82× | | 16 | 787 词元/秒 | 253 词元/秒 | 3.07× |

测试环境:NVIDIA A100,Llama 3.2 1B,Q8/INT8 量化

✨ 主要特性

🎯 vLLM风格的连续批处理

GPU优化内核

🏗️ 现代C++20架构

🚀 快速开始

先决条件

下载模型

下载预量化模型快速开始:

https://huggingface.co/Lummy666/llama-3.2-1B-Instruct

构建

#### 选项1:从源码构建

# Clone repository
cd photon_infer

Configure with CUDA

mkdir build && cd build cmake -DCMAKE_BUILD_TYPE=Release -DPHOTON_BUILD_CUDA=ON ..

Build

cmake --build . -j$(nproc)

Install (optional)

sudo cmake --install .
安装完成后,您可以直接从任何位置运行网络服务器:

photon_web_server \
    --port 5728 \
    --model /path/to/llama-3.2-1B-Instruct \
    --tokenizer /path/to/llama-3.2-1B-Instruct/tokenizer.json
安装将会放置: 卸载方法:

cd build
sudo cmake --build . --target uninstall

#### 选项 2:使用 Docker(推荐)

# Pull the pre-built Docker image
docker pull lumia431/photon_infer:latest

Run the container with GPU support

docker run --rm --gpus all -p 5728:5728 -e PORT=5728 lumia431/photon_infer:latest

Web界面将可通过 http://localhost:5728 访问

🔬 技术细节

INT8 量化

分页注意力

连续批处理调度器

🛣️ 路线图

📖 文档

🤝 贡献

欢迎贡献!请参阅 CONTRIBUTING.md 获取指南。

📝 许可

MIT 许可证 - 详情见 LICENSE

🙏 致谢

---

为高性能大型语言模型推理而用 ❤️ 构建

--- Tranlated By Open Ai Tx | Last indexed: 2026-03-22 ---