Web Analytics

photon_infer

⭐ 98 stars Spanish by lumia431

PhotonInfer

Un motor de inferencia LLM de alto rendimiento con agrupamiento continuo al estilo vLLM

English | 中文 | Demostración en vivo

License: MIT CUDA C++20


🚀 Aspectos Destacados de Rendimiento

PhotonInfer ofrece rendimiento de inferencia de calidad para producción para LLMs con capacidades avanzadas de agrupamiento. Soporta modelos Llama-3.2 y Qwen3.

Inferencia de Solicitud Única

| Modelo | PhotonInfer | llama.cpp | Aceleración | |--------|-------------|-----------|-------------| | Llama 3.2 1B | 185 tok/s | 252 tok/s | 0.73× (llama.cpp más rápido) |

TTFT (Tiempo Hasta el Primer Token): 387ms con prompt de 100 tokens (cuantización INT8)

Rendimiento de Inferencia en Lote

| Tamaño del Lote | PhotonInfer | llama.cpp | Aceleración | |-----------------|-------------|-----------|-------------| | 4 | 410 tok/s | 252 tok/s | 1.63× | | 8 | 720 tok/s | 255 tok/s | 2.82× | | 16 | 787 tok/s | 253 tok/s | 3.07× |

Probado en: NVIDIA A100, Llama 3.2 1B, cuantización Q8/INT8

✨ Características Clave

🎯 Batching Continuo Estilo vLLM

Kernels Optimizados para GPU

🏗️ Arquitectura Moderna C++20

🚀 Inicio Rápido

Requisitos Previos

Descargar Modelo

Descarga un modelo pre-cuantificado para comenzar rápidamente:

https://huggingface.co/Lummy666/llama-3.2-1B-Instruct

Compilar

#### Opción 1: Compilar desde el Código Fuente

# Clone repository
cd photon_infer

Configure with CUDA

mkdir build && cd build cmake -DCMAKE_BUILD_TYPE=Release -DPHOTON_BUILD_CUDA=ON ..

Build

cmake --build . -j$(nproc)

Install (optional)

sudo cmake --install .

Después de la instalación, puede ejecutar el servidor web directamente desde cualquier lugar:

photon_web_server \
    --port 5728 \
    --model /path/to/llama-3.2-1B-Instruct \
    --tokenizer /path/to/llama-3.2-1B-Instruct/tokenizer.json

La instalación colocará:

Para desinstalar:
cd build
sudo cmake --build . --target uninstall
#### Opción 2: Usar Docker (Recomendado)

# Pull the pre-built Docker image
docker pull lumia431/photon_infer:latest

Run the container with GPU support

docker run --rm --gpus all -p 5728:5728 -e PORT=5728 lumia431/photon_infer:latest

La interfaz web estará disponible en http://localhost:5728

🔬 Detalles Técnicos

Cuantificación INT8

Atención Paginada

Planificador de Batching Continuo

🛣️ Hoja de Ruta

📖 Documentación

🤝 Contribuyendo

¡Contribuciones bienvenidas! Por favor, consulte CONTRIBUTING.md para las pautas.

📝 Licencia

Licencia MIT - vea LICENSE para detalles.

🙏 Agradecimientos

---

Construido con ❤️ para inferencia de LLM de alto rendimiento

--- Tranlated By Open Ai Tx | Last indexed: 2026-03-22 ---