博客
关于我
从“小”培养AI安全意识:OpenAI开源最新强化学习训练工具,安全约束自由定制,开箱即用...
阅读量:321 次
发布时间:2019-03-01

本文共 1702 字,大约阅读时间需要 5 分钟。

鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI

强化学习(RL)很强,能训练出会用鸡贼策略的星际宗师级玩家。


AlphaStar打出cannon rush

但强化学习也很危险,因为它的套路是无限制探索,常常会出现一些疯狂危险的尝试。

但在现实环境中,有些试错是不可接受的。没有人希望看到,AI通过反复撞车来学会避免事故发生。

要让强化学习从虚拟环境走向现实生活,强化学习界的高玩OpenAI说:安全意识要从“小”抓起。

于是,他们开源了Safety Gym

这是一套具有安全约束的训练环境和工具,能够评估强化学习智能体在训练过程中是否遵循安全原则,把AI在训练过程中产生的奇奇怪怪的想法都“扼杀”在摇篮里。

也就是说,在训练过程中,就约束AI,让它们明白,有些禁忌是不可触犯的。

Safety Gym

想要培养安全意识,就得给出安全规范。而在强化学习中,能做到这一点的就是约束强化学习(Constrained RL)

约束强化学习,除了像普通的强化学习那样最大化奖励功能,还添加了约束智能体的成本函数(cost function)。

以自动驾驶举例,AI的任务是尽快从A点到达B点,所用时间越短,获得的奖励就最大。

这就导致,只要奖励够高,撞不撞车什么的会完全被AI忽视。

而在约束强化学习中,增加了一重惩罚:如果出现不可接受的危险行为,就惩罚智能体,直到它不再这么干为止。

而Safety Gym的诞生,就是为了方面约束强化学习的安全研究。

在Safety Gym环境中,预设了三种机器人:

点(Point:一个被约束在二维平面上的简单机器人,能够转弯、前进或后退。

车(Car):有两个独立驱动的平行车轮和一个自由滚动的后轮。车在转弯、向前或向后移动时,需要协调两个驱动器。

狗狗(Doggo):一只四足机器人,每条腿跟躯干接触的位置都有两个控件,分别控制相对于躯干的方位角和仰角;膝盖上也有一个控制角度的控制器。

以及三个主要任务,每个任务都有两个难度级别:

目标任务(Goal):让机器人移动到一系列目标位置。

按钮任务(Button):让机器人按一系列目标按钮。

在有干扰的情况下按按钮

推箱子任务(Push):让机器人把箱子推到一系列目标位置。

另外,在Safety Gym中还有五种主要的安全约束元素:危险区域,易碎花瓶,按钮,柱子和小怪兽。

这些元素可以自由组合,用户可以在训练环境中添加任意数量的任意元素,并设置针对性的约束条件。

每个时间步长,环境都会为每一种不安全元素提供单独的成本信号,并提供反应整体的总成本信号。

与现有训练环境相比,Safety Gym环境更丰富,任务更难且更复杂。

基准测试

为了让Safety Gym变成一个开箱即用的工具,OpenAI还在其基础上提出了一种标准化方法,评估了一系列标准强化学习算法和约束强化学习算法:PPO,TRPO,PPO和TRPO的拉格朗日罚分版,以及约束策略优化(CPO)。


基准环境

结果表明:在Safety Gym里,最简单的任务易于解决,并且可以快速迭代。而最困难的任务,对当前的技术而言还是颇具挑战性。

OpenAI希望,未来,Safety Gym能被集成到开发人员用来测试系统的评估方案中,成为安全标准。

传送门

博客地址:
https://openai.com/blog/safety-gym/

论文地址:
https://d4mucfpksywv.cloudfront.net/safexp-short.pdf

GitHub项目地址:
https://github.com/openai/safety-gym

作者系网易新闻·网易号“各有态度”签约作者

大咖齐聚!参会嘉宾重磅揭晓

量子位 MEET 2020 智能未来大会启幕,李开复、倪光南、景鲲、周伯文、吴明辉、曹旭东、叶杰平、唐文斌、王砚峰、黄刚、马原等AI大咖与你一起读懂人工智能。观众票即将售罄,扫码报名预定席位 ~

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

转载地址:http://cjxt.baihongyu.com/

你可能感兴趣的文章
NIFI1.21.0_Mysql到Mysql增量CDC同步中_日期类型_以及null数据同步处理补充---大数据之Nifi工作笔记0057
查看>>
NIFI1.21.0_Mysql到Mysql增量CDC同步中_补充_插入时如果目标表中已存在该数据则自动改为更新数据_Postgresql_Hbase也适用---大数据之Nifi工作笔记0058
查看>>
NIFI1.21.0_Mysql到Mysql增量CDC同步中_补充_更新时如果目标表中不存在记录就改为插入数据_Postgresql_Hbase也适用---大数据之Nifi工作笔记0059
查看>>
NIFI1.21.0_NIFI和hadoop蹦了_200G集群磁盘又满了_Jps看不到进程了_Unable to write in /tmp. Aborting----大数据之Nifi工作笔记0052
查看>>
NIFI1.21.0_Postgresql和Mysql同时指定库_指定多表_全量同步到Mysql数据库以及Hbase数据库中---大数据之Nifi工作笔记0060
查看>>
NIFI1.21.0最新版本安装_连接phoenix_单机版_Https登录_什么都没改换了最新版本的NIFI可以连接了_气人_实现插入数据到Hbase_实际操作---大数据之Nifi工作笔记0050
查看>>
NIFI1.21.0最新版本安装_配置使用HTTP登录_默认是用HTTPS登录的_Https登录需要输入用户名密码_HTTP不需要---大数据之Nifi工作笔记0051
查看>>
NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表多表增量同步_增删改数据分发及删除数据实时同步_通过分页解决变更记录过大问题_02----大数据之Nifi工作笔记0054
查看>>
NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表多表增量同步_增加修改实时同步_使用JsonPath及自定义Python脚本_03---大数据之Nifi工作笔记0055
查看>>
NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表多表增量同步_插入修改删除增量数据实时同步_通过分页解决变更记录过大问题_01----大数据之Nifi工作笔记0053
查看>>
NIFI1.21.0通过Postgresql11的CDC逻辑复制槽实现_指定表或全表增量同步_实现指定整库同步_或指定数据表同步配置_04---大数据之Nifi工作笔记0056
查看>>
NIFI1.23.2_最新版_性能优化通用_技巧积累_使用NIFI表达式过滤表_随时更新---大数据之Nifi工作笔记0063
查看>>
NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_根据binlog实现update数据实时同步_实际操作05---大数据之Nifi工作笔记0044
查看>>
NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_根据binlog实现数据实时delete同步_实际操作04---大数据之Nifi工作笔记0043
查看>>
NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置binlog_使用处理器抓取binlog数据_实际操作01---大数据之Nifi工作笔记0040
查看>>
NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置数据路由_实现数据插入数据到目标数据库_实际操作03---大数据之Nifi工作笔记0042
查看>>
NIFI从MySql中增量同步数据_通过Mysql的binlog功能_实时同步mysql数据_配置数据路由_生成插入Sql语句_实际操作02---大数据之Nifi工作笔记0041
查看>>
NIFI从MySql中离线读取数据再导入到MySql中_03_来吧用NIFI实现_数据分页获取功能---大数据之Nifi工作笔记0038
查看>>
NIFI从MySql中离线读取数据再导入到MySql中_不带分页处理_01_QueryDatabaseTable获取数据_原0036---大数据之Nifi工作笔记0064
查看>>
NIFI从MySql中离线读取数据再导入到MySql中_无分页功能_02_转换数据_分割数据_提取JSON数据_替换拼接SQL_添加分页---大数据之Nifi工作笔记0037
查看>>