Web Analytics

photon_infer

⭐ 98 stars Korean by lumia431

PhotonInfer

vLLM 스타일의 연속 배칭을 지원하는 고성능 LLM 추론 엔진

English | 中文 | Live Demo

License: MIT CUDA C++20


🚀 성능 하이라이트

PhotonInfer는 고급 배칭 기능을 갖춘 생산 수준의 LLM 추론 성능을 제공합니다. Llama-3.2 및 Qwen3 모델을 지원합니다.

단일 요청 추론

| 모델 | PhotonInfer | llama.cpp | 속도 향상 | |-------|-------------|-----------|---------| | Llama 3.2 1B | 185 토큰/초 | 252 토큰/초 | 0.73× (llama.cpp가 더 빠름) |

TTFT (첫 토큰까지 시간): 387ms @ 100토큰 프롬프트 (INT8 양자화)

배치 추론 처리량

| 배치 크기 | PhotonInfer | llama.cpp | 속도 향상 | |------------|-------------|-----------|---------| | 4 | 410 토큰/초 | 252 토큰/초 | 1.63× | | 8 | 720 토큰/초 | 255 토큰/초 | 2.82× | | 16 | 787 토큰/초 | 253 토큰/초 | 3.07× |

테스트 환경: NVIDIA A100, Llama 3.2 1B, Q8/INT8 양자화

✨ 주요 기능

🎯 vLLM 스타일 연속 배치 처리

GPU 최적화 커널

🏗️ 모던 C++20 아키텍처

🚀 빠른 시작

전제 조건

모델 다운로드

빠른 시작을 위해 사전 양자화된 모델 다운로드:

https://huggingface.co/Lummy666/llama-3.2-1B-Instruct

빌드

#### 옵션 1: 소스에서 빌드하기

# Clone repository
cd photon_infer

Configure with CUDA

mkdir build && cd build cmake -DCMAKE_BUILD_TYPE=Release -DPHOTON_BUILD_CUDA=ON ..

Build

cmake --build . -j$(nproc)

Install (optional)

sudo cmake --install .
설치 후에는 어디에서나 웹 서버를 직접 실행할 수 있습니다:

photon_web_server \
    --port 5728 \
    --model /path/to/llama-3.2-1B-Instruct \
    --tokenizer /path/to/llama-3.2-1B-Instruct/tokenizer.json
설치는 다음 위치에 파일을 배치합니다: 제거하려면:

cd build
sudo cmake --build . --target uninstall
#### 옵션 2: 도커 사용 (권장)

# Pull the pre-built Docker image
docker pull lumia431/photon_infer:latest

Run the container with GPU support

docker run --rm --gpus all -p 5728:5728 -e PORT=5728 lumia431/photon_infer:latest
웹 인터페이스는 http://localhost:5728 에서 이용 가능합니다.

🔬 기술 세부사항

INT8 양자화

페이징된 어텐션

연속 배치 스케줄러

🛣️ 로드맵

📖 문서

🤝 기여

기여를 환영합니다! 가이드라인은 CONTRIBUTING.md에서 확인하세요.

📝 라이선스

MIT 라이선스 - 자세한 내용은 LICENSE를 참조하세요.

🙏 감사의 말

---

고성능 LLM 추론을 위해 ❤️와 함께 제작되었습니다

--- Tranlated By Open Ai Tx | Last indexed: 2026-03-22 ---