(公众号:)按:微软公司研究人员创立了一个人工智能的系统,这个系统需要在 20 世纪 80 年代风行全球的电子游戏不吃豆人小姐(Ms. Pac-Man)中取得最高分,系统用于了共管策略来更大程度地影响 AI 代理,从而极致地通关游戏。今年年初,微软公司并购了一家人工智能初创公司 Maluuba,Maluuba 公司团队运用增强自学技术(机器学习的分支),在不吃豆人小姐游戏 Atari 2600 版本中展现出极致。用于这种方法,该团队在这个游戏中获得的分数低约 999,990。
坐落于加拿大蒙特利尔的麦吉尔大学(McGill University),专门从事计算机科学研究的 Doina Precup 副教授回应,AI 研究人员的经常用于各种电子游戏来测试他们研发的系统,但研究人员找到不吃豆人小姐游戏是最好攻下的。但是,Precup 回应,比起于研究人员所获得的成就而言,她对于研究人员取得成果的过程更为感兴趣。
为了在不吃豆人小姐游戏中取得更高的分数,Maluuba 公司团队将操纵不吃豆人小姐游戏的大问题分解成若干个小问题,然后将小问题分发给AI代理解决问题。Precup 说道“这个共管策略的点子让 Maluuba 公司的研究人员用于有所不同的系统来构建同一个目标,这是一件十分有意思的事情”,她还说道到:“这个点子类似于一些大脑如何工作的理论,它可以更大程度地影响AI代理教学,从而利用受限的信息来已完成更加简单的任务。倘若需要极致利用共管策略,那人工智能将向前横跨一大步,这知道令人深感最为激动。”Maluuba 团队将这种共管策略称作混合式奖励架构(Hybrid Reward Architecture),这个方法用于了 150 多名人工智能代理,每个代理与其他代理互相独立国家地通晓不吃豆人小姐游戏。
比如,一些代理顺利寻找一个豆子将取得的奖励,而另外一些代理由于幽灵的不存在必需睡在原地。然后,研究人员在不吃豆人小姐游戏中创立了一个顶级代理,就像一家公司的高级经理一样,顶级代理需要取得所有代理的建议,综合分析后由顶级代理来要求不吃豆人小姐该如何移动。顶级代理会根据自由选择各个方向行进的代理数量的大小来要求移动方向,但同时也必须考虑到代理想往某个方向移动的反应强度。
例如,如果 100 个代理想要向右边移动,因为向右边回头是他们的最佳路径,但有 3个人想向左边移动,因为右边有一个可怕的幽灵,那这 3 个代理向左边移动的反应强度显著优于其他代理,考虑到幽灵的不存在,顶级代理应当要求向左移动。Maluuba 公司的研究室经理 Harman Van Seijen,对于他们的近期研究成果公开发表了一篇文章,文章中写道,当每位代理都冷静地作出自由选择,顶级代理综合利用每个代理的信息后作出最佳自由选择,那么在不吃豆人小姐游戏中就可以取得最差的结果。
Harman Van Seijen 说道:“虽然每个代理只关心一个特定的问题,但是他们之间有很好的相互作用”。图为Harman Van Seijen为什么 AI 主要研究攻下不吃豆人小姐游戏必须运用最先进设备的 AI 研究方法来打败类似于上世纪 80 年代 Atari 不吃豆人小姐游戏这样的非常简单游戏,这看起来很匪夷所思。但是 Maluuba 公司的项目经理 Rahul Mehrotra 回应,用于算法来夺得这些非常简单的电子游戏只不过十分艰难,因为在玩游戏的过程中可能会遇上的各种各样的情况。
Mehrotra 回应:“许多专门从事人工智能的公司建构游戏智能算法,因为公司期望人工智能需要像人类一样享有打游戏的技能。”Steve Golson 是不吃豆人小姐游戏街机版的创始人之一,他说道到,不吃豆人小姐最初定位是街机游戏,期望游戏对人们有持续吸引力而走进宿舍,所以不吃豆人小姐游戏必需掌控人类不能几乎吞并的游戏程序。
图为Steve Golson运营咨询公司 Trilobyte Systems 的 Golson 说道到,他们蓄意设计了不吃豆人小姐游戏比普通不吃豆人游戏更为不能预测,所以玩家们很难打通关。简单的游戏使得研究人员企图用于 AI 代理来对随机环境作出理想的反应。Golson 还说道到:“用于 AI 代理来通关不吃豆人小姐游戏是不切实际的,但由于游戏的随机性,所必须设计的 AI 程序将最为简单。
”增强自学对于在大大发展的增强自学领域工作的研究人员来说,这种不可预测性近于有价值。在 AI 研究中,增强自学是监督自学的副本,是一种更加常用的人工智能方法,它需要让系统在做到任务时显得更佳。通过增强自学,代理对其每个动作都采行大力或消极的反应,通过大大地试验和犯错误来最大限度地取得大力反应或奖励。具备监督自学的 AI 系统,通过得出较好和不合理的示例,来自学如何在对话中作出必要的对此。
而增强自学系统则是通过系统在对话中作出准确的对此,而后取得更高级别对系统的方式来自学对话。AI 专家指出,增强自学可以用作创立 AI 代理,这样的代理可以作出更好的要求,需要已完成更加简单工作,为人们获取更高水平的服务。Mehrotra 回应,他们研发的需要通关不吃豆人小姐游戏的系统,就可以为人们获取更佳的服务。
它可以在特定时间或给定时间协助公司的销售部门预测商品的潜在客户。该系统可以用于多个代理,每个代理代表一个客户,可以预测很多最重要因素,例如:哪些客户不会续约合约,哪些合约对于公司是有价值的。有了 AI 系统预测的协助,销售主管可以把更好的时间放到潜在客户身上,如此不会提升出售机会,因为销售人员的目光早已射击了最更容易下订单的客户。
Van Seijen 回应,他期望这种共管策略可以被用在 AI 的其他研究领域,如自然语言处置领域。他还说道到:“共管策略使人们在解决问题确实简单的问题的方式上获得变革。”viaMicrosoft版权文章,予以许可禁令刊登。下文闻刊登须知。
本文来源:米乐-www.drsimmonds.com