🌐 Idioma

Contacto 📫

El principal contribuyente de este repositorio es un estudiante de maestría que se graduará en 2026. No dudes en contactar para colaboración u oportunidades.

本仓库的主要贡献者是一名 2026 届硕士毕业生，欢迎联系合作或交流机会。

Noticias 📅

[2026/03]: ¡Ahora soportamos CLI y hemos publicado nuestros modelos ajustados en Hugging Face 🤗!
[2026/01]: Soportamos generación libre y por plantilla, exportación PPTX y modo offline. Se ha añadido gestión de contexto para evitar desbordamiento de contexto.
[2025/12]: 🔥 Lanzamiento de V2 con mejoras importantes: Integración profunda de investigación, diseño visual libre, creación autónoma de recursos, generación de texto a imagen y entorno de agente con sandbox y más de 20 herramientas.
[2025/09]: 🛠️ Se añadió soporte para servidor MCP - ver Servidor MCP para detalles de configuración
[2025/09]: 🚀 Lanzamiento de v2 con mejoras importantes - ver notas de lanzamiento para detalles
[2025/08]: 🎉 ¡Artículo aceptado en EMNLP 2025!
[2025/05]: ✨ Lanzamiento de v1 con funcionalidad principal y 🌟 avance: ¡alcanzamos 1,000 estrellas en GitHub! - ver notas de lanzamiento para detalles
[2025/01]: 🔓 Código abierto del repositorio, código experimental archivado en lanzamiento experimental

Uso 📖

[!IMPORTANTE]

Windows no está soportado. Si usas Windows, por favor utiliza WSL.

Recomendamos encarecidamente empezar con la CLI y la tarea mínima para confirmar que dependencias y entorno están configurados correctamente.

Configuración

Si utilizas la CLI, pptagent onboard puede ayudar a crear y actualizar estas configuraciones de forma interactiva. Si usas Docker Compose o construyes desde el código fuente, deberás prepararlas manualmente:

cp deeppresenter/config.yaml.example deeppresenter/config.yaml
cp deeppresenter/mcp.json.example deeppresenter/mcp.json

#### Servicios opcionales que mejoran la calidad

Los siguientes servicios pueden mejorar notablemente la calidad de generación, especialmente para profundidad de investigación, análisis de PDF y creación de recursos visuales:

Tavily: mejora la calidad de búsqueda web. Solicite una clave API en tavily.com, luego configure TAVILY_API_KEY en deeppresenter/mcp.json.
MinerU: mejora la calidad de análisis de PDF. Puede solicitar una clave API en mineru.net y configurar MINERU_API_KEY en deeppresenter/mcp.json, o implementar MinerU localmente y configurar MINERU_API_URL en su lugar.
Modelo de texto a imagen: mejora la calidad de generación de imágenes. Configure t2i_model en deeppresenter/config.yaml.

Si desea una configuración completamente offline, implemente MinerU localmente y configure offline_mode: true en deeppresenter/config.yaml para evitar cargar herramientas dependientes de la red como la búsqueda web.

Más variables configurables pueden encontrarse en constants.py.

1. Uso personal / Integración con OpenClaw: CLI

[!NOTA]

En macOS, la CLI puede instalar automáticamente varias dependencias locales, incluyendo Homebrew, Node.js, Docker, poppler, Playwright y llama.cpp.

En Linux, debe preparar el entorno usted mismo.

Utilice este modo si desea la configuración local más rápida o quiere conectar DeepPresenter con OpenClaw a través de la CLI.

# Install uv
curl -LsSf https://astral.sh/uv/install.sh | sh
First-time interactive setup
uvx pptagent onboard
Generate a presentation
uvx pptagent generate "Single Page with Title: Hello World" -o hello.pptx
Generate with attachments
uvx pptagent generate "Q4 Report" \
  -f data.xlsx \
  -f charts.pdf \
  -p "10-12" \
  -o report.pptx

| Comando | Descripción | | ------------------- | -------------------------------------------------- | | pptagent onboard | Asistente interactivo de configuración | | pptagent generate | Generar presentaciones | | pptagent config | Ver la configuración actual | | pptagent reset | Restablecer la configuración | | pptagent serve | Iniciar el servicio de inferencia local usado por la CLI |

2. Configuración mínima / Desarrollo: Compilar desde el código fuente

Utilice este modo si desea la menor capa de abstracción y control total sobre las dependencias durante el desarrollo.

uv pip install -e .
playwright install-deps
playwright install chromium
npm install --prefix deeppresenter/html2pptx
modelscope download forceless/fasttext-language-id
docker pull forceless/deeppresenter-sandbox
docker pull forceless/deeppresenter-host
docker tag forceless/deeppresenter-sandbox deeppresenter-sandbox
or build from dockerfile
docker build -t deeppresenter-sandbox -f deeppresenter/docker/SandBox.Dockerfile .

Inicia la aplicación:

python webui.py

3. Implementación del servidor: Docker Compose

Utilice este modo para un entorno de servidor estable con dependencias explícitas.

# Pull the public images to avoid build from source
docker pull forceless/deeppresenter-sandbox
docker tag forceless/deeppresenter-sandbox deeppresenter-sandbox
Or build from source
docker build -t deeppresenter-sandbox -f deeppresenter/docker/SandBox.Dockerfile .
Start the host service
docker compose up -d

The service exposes the web UI on http://localhost:7861.

Case Study 💡

#### Prompt: Please present the given document to me.

#### Prompt: 请介绍小米 SU7 的外观和价格

#### Prompt: 请制作一份高中课堂展示课件，主题为“解码立法过程：理解其对国际关系的影响”

Imagen 15

Contribuidores 🌟

_Force1ess	_Puelloc	_hongyan	_Dnoob	_Sadahlu
_{KurisuMakiseSame}	_Angelen	_BrandonHu	_{Eliot White}	_EvolvedGhost
_ISCAS-zwl	_{James Brown}	_JunZhang	_{Open AI Tx}	_{Sense_wang}
_SuYao	_{Zakir Jiwani}	_Zhenyu	_lnennnn

Citación 🙏

Si encuentras este proyecto útil, por favor utiliza lo siguiente para citarlo:

@inproceedings{zheng-etal-2025-pptagent, title = "{PPTA}gent: Generating and Evaluating Presentations Beyond Text-to-Slides", author = "Zheng, Hao and Guan, Xinyan and Kong, Hao and Zhang, Wenkai and Zheng, Jia and Zhou, Weixiang and Lin, Hongyu and Lu, Yaojie and Han, Xianpei and Sun, Le", editor = "Christodoulopoulos, Christos and Chakraborty, Tanmoy and Rose, Carolyn and Peng, Violet", booktitle = "Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing", month = nov, year = "2025", address = "Suzhou, China", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2025.emnlp-main.728/", doi = "10.18653/v1/2025.emnlp-main.728", pages = "14413--14429", ISBN = "979-8-89176-332-6", abstract = "Automatically generating presentations from documents is a challenging task that requires accommodating content quality, visual appeal, and structural coherence. Existing methods primarily focus on improving and evaluating the content quality in isolation, overlooking visual appeal and structural coherence, which limits their practical applicability. To address these limitations, we propose PPTAgent, which comprehensively improves presentation generation through a two-stage, edit-based approach inspired by human workflows. PPTAgent first analyzes reference presentations to extract slide-level functional types and content schemas, then drafts an outline and iteratively generates editing actions based on selected reference slides to create new slides. To comprehensively evaluate the quality of generated presentations, we further introduce PPTEval, an evaluation framework that assesses presentations across three dimensions: Content, Design, and Coherence. Results demonstrate that PPTAgent significantly outperforms existing automatic presentation generation methods across all three dimensions." }

@misc{zheng2026deeppresenterenvironmentgroundedreflectionagentic, title={DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation}, author={Hao Zheng and Guozhao Mo and Xinru Yan and Qianhao Yuan and Wenkai Zhang and Xuanang Chen and Yaojie Lu and Hongyu Lin and Xianpei Han and Le Sun}, year={2026}, eprint={2602.22839}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2602.22839}, }

--- Tranlated By Open Ai Tx | Last indexed: 2026-04-09 ---