ODRL是首个针对动态差异强化学习问题的基准测试,其中目标域数据有限,而源域数据相对充足。目标是利用两个域的数据在目标域中获得更好的性能。
ODRL包含以下四种实验设置:
针对每种实验设置,实现了多种基准算法。
通过train.py文件运行四种实验设置,通过--mode标志切换不同的设置。
train.py
--mode
本仓库采用MIT许可证。