Web Analytics

photon_infer

⭐ 98 stars French by lumia431

PhotonInfer

Un moteur d'inférence LLM haute performance avec un batch continu de type vLLM

English | 中文 | Démonstration en direct

Licence : MIT CUDA C++20


🚀 Points forts des performances

PhotonInfer offre des performances d'inférence de qualité production pour les LLM avec des capacités avancées de batching. Prend en charge les modèles Llama-3.2 et Qwen3.

Inférence pour une seule requête

| Modèle | PhotonInfer | llama.cpp | Accélération | |--------|-------------|-----------|--------------| | Llama 3.2 1B | 185 tok/s | 252 tok/s | 0,73× (llama.cpp plus rapide) |

TTFT (Temps jusqu'au premier token) : 387 ms pour un prompt de 100 tokens (quantification INT8)

Débit d'inférence en batch

| Taille du batch | PhotonInfer | llama.cpp | Accélération | |-----------------|-------------|-----------|--------------| | 4 | 410 tok/s | 252 tok/s | 1,63× | | 8 | 720 tok/s | 255 tok/s | 2,82× | | 16 | 787 tok/s | 253 tok/s | 3,07× |

Testé sur : NVIDIA A100, Llama 3.2 1B, quantification Q8/INT8

✨ Fonctionnalités clés

🎯 Regroupement Continu de Style vLLM

Kernels Optimisés GPU

🏗️ Architecture Moderne C++20

🚀 Démarrage Rapide

Prérequis

Télécharger le Modèle

Téléchargez un modèle pré-quantifié pour démarrer rapidement :

https://huggingface.co/Lummy666/llama-3.2-1B-Instruct

Compilation

#### Option 1 : Compiler depuis les Sources

# Clone repository
cd photon_infer

Configure with CUDA

mkdir build && cd build cmake -DCMAKE_BUILD_TYPE=Release -DPHOTON_BUILD_CUDA=ON ..

Build

cmake --build . -j$(nproc)

Install (optional)

sudo cmake --install .

Après l'installation, vous pouvez exécuter le serveur web directement depuis n'importe où :

photon_web_server \
    --port 5728 \
    --model /path/to/llama-3.2-1B-Instruct \
    --tokenizer /path/to/llama-3.2-1B-Instruct/tokenizer.json

L'installation placera :

Pour désinstaller :
cd build
sudo cmake --build . --target uninstall
#### Option 2 : Utiliser Docker (Recommandé)

# Pull the pre-built Docker image
docker pull lumia431/photon_infer:latest

Run the container with GPU support

docker run --rm --gpus all -p 5728:5728 -e PORT=5728 lumia431/photon_infer:latest

L'interface web sera disponible à http://localhost:5728

🔬 Détails techniques

Quantification INT8

Attention paginée

Ordonnanceur de batch continu

🛣️ Feuille de route

📖 Documentation

🤝 Contribution

Les contributions sont les bienvenues ! Veuillez consulter CONTRIBUTING.md pour les directives.

📝 Licence

Licence MIT - voir LICENSE pour les détails.

🙏 Remerciements

---

Conçu avec ❤️ pour une inférence LLM haute performance

--- Tranlated By Open Ai Tx | Last indexed: 2026-03-22 ---