🌹 Unifloral:统一的离线强化学习
统一实现与严格评估离线强化学习——由Matthew Jackson、Uljad Berdica和Jarek Liesen构建。
💡 代码理念
- ⚛️ 单文件:我们将算法实现为独立的 Python 文件。
- 🤏 极简:只修改算法间必要部分,便于直接比较。
- ⚡️ GPU 加速:使用 JAX 并对所有训练代码端到端编译,实现极速训练。
🤖 算法
我们提供两种类型的算法实现:
- 独立实现:每个算法作为一个单文件实现,依赖最小,便于理解和修改。
- 统一实现:大多数算法可作为我们统一实现的配置文件
unifloral.py使用。
.npz 文件,位于 final_returns/,便于使用我们的评估协议进行分析。所有脚本支持 D4RL,并使用 Weights & Biases 进行日志记录,配置文件以 WandB sweep 文件形式提供。
无模型方法
| 算法 | 独立实现 | 统一实现 | 附加 |
| --- | --- | --- | --- |
| BC | bc.py | unifloral/bc.yaml | - |
| SAC-N | sac_n.py | unifloral/sac_n.yaml | [[ArXiv]](https://arxiv.org/abs/2110.01548) |
| EDAC | edac.py | unifloral/edac.yaml | [[ArXiv]](https://arxiv.org/abs/2110.01548) |
| CQL | cql.py | - | [[ArXiv]](https://arxiv.org/abs/2006.04779) |
| IQL | iql.py | unifloral/iql.yaml | [[ArXiv]](https://arxiv.org/abs/2110.06169) |
| TD3-BC | td3_bc.py | unifloral/td3_bc.yaml | [[ArXiv]](https://arxiv.org/abs/2106.06860) |
| ReBRAC | rebrac.py | unifloral/rebrac.yaml | [[ArXiv]](https://arxiv.org/abs/2305.09836) |
| TD3-AWR | - | unifloral/td3_awr.yaml | [[ArXiv]](https://arxiv.org/abs/2504.11453) |
基于模型
我们实现了一个用于动力学模型训练的单一脚本:dynamics.py,配置文件为dynamics.yaml。
| 算法 | 独立版本 | 统一版本 | 额外资料 |
| --- | --- | --- | --- |
| MOPO | mopo.py | - | [[ArXiv]](https://arxiv.org/abs/2005.13239) |
| MOReL | morel.py | - | [[ArXiv]](https://arxiv.org/abs/2005.05951) |
| COMBO | combo.py | - | [[ArXiv]](https://arxiv.org/abs/2102.08363) |
| MoBRAC | - | unifloral/mobrac.yaml | [[ArXiv]](https://arxiv.org/abs/2504.11453) |
更多新算法即将推出 👀
📊 评估
我们的评估脚本 (evaluation.py) 实现了论文中描述的协议,分析了UCB赌博机在一系列策略评估中的性能。
from evaluation import load_results_dataframe, bootstrap_bandit_trials
import jax.numpy as jnpLoad all results from the final_returns directory
df = load_results_dataframe("final_returns")Run bandit trials with bootstrapped confidence intervals
results = bootstrap_bandit_trials(
returns_array=jnp.array(policy_returns), # Shape: (num_policies, num_rollouts)
num_subsample=8, # Number of policies to subsample
num_repeats=1000, # Number of bandit trials
max_pulls=200, # Maximum pulls per trial
ucb_alpha=2.0, # UCB exploration coefficient
n_bootstraps=1000, # Bootstrap samples for confidence intervals
confidence=0.95 # Confidence level
)Access results
pulls = results["pulls"] # Number of pulls at each step
means = results["estimated_bests_mean"] # Mean score of estimated best policy
ci_low = results["estimated_bests_ci_low"] # Lower confidence bound
ci_high = results["estimated_bests_ci_high"] # Upper confidence bound📝 引用我们!
@misc{jackson2025clean,
title={A Clean Slate for Offline Reinforcement Learning},
author={Matthew Thomas Jackson and Uljad Berdica and Jarek Liesen and Shimon Whiteson and Jakob Nicolaus Foerster},
year={2025},
eprint={2504.11453},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2504.11453},
}--- Tranlated By Open Ai Tx | Last indexed: 2026-01-08 ---