请选择 进入手机版 | 继续访问电脑版
开启辅助访问
链路首页链路财经目前收录 币种 : 4908 交易所 : 310钱包 : 17 24H 交易量 : $43,403,137,051 总市值 : $245,388,183,835
2019
03/26
18:30
分享
评论
  • 人工智能已在围棋这样的完美信息游戏上实现了远超人类的水平,但在信息未完全披露的多人对战游戏上还无法战胜人类。近年来,OpenAI 和 DeepMind 在 DOTA2 和星际争霸 2 上的尝试都难言成功。近日,来自浙江大学的研究人员提出了一种新方法,结合蒙特卡洛树搜索和 NFSP,大大提高了在信息不完整的大规模零和游戏上的表现。面对信息不完整的环境,浙大的研究人员提出了异步神经虚拟自我对弈(ANFSP)方法,让 AI 学会在多个虚拟环境中进行「自我博弈」,从而生成最优决策。他们的方法在德州扑克和多人 FPS 射击游戏中均取得了不错表现。

    随着深度强化学习的快速发展,AI 已经在围棋等信息完整的游戏中战胜了人类专业玩家。然而,「星际争霸」等信息不完整游戏的研究还没有取得同样的进展。这类研究的一大问题是,它们很少从理论和量化的角度考虑对其训练和结果进行评估,因此效果难以保证。


    博弈论是研究现实世界竞赛中人类行为模式的基石。该理论主要研究智能体如何通过竞争与合作实现其利益最大化并度量决策的质量。它已经成为计算机科学中一个颇具吸引力的研究任务。名为「算法博弈论」的交互研究课题已经确立,并随着人工智能的发展受到越来越多的关注。对于交易、交通管理等现实世界中的复杂问题,计算维度会急剧增加,因此有必要利用算法和人工智能的思想使其在实践中发挥作用,这也是该研究的主要动机之一。


    在博弈论中,纳什均衡是博弈的一个最优解决方案,即没有人可以通过缓和自己的策略获得额外收益。虚拟对弈(Fictitious Play)是求解正规博弈中纳什均衡的一种传统算法。虚拟对弈玩家反复根据对手的平均策略做出最佳反应。玩家的平均策略将收敛到纳什均衡。Heinrich 等人提出了广泛的虚拟对弈(Extensive Fictitious Play),将虚拟对弈的概念扩展到了扩展式博弈。然而,状态在每个树节点中都以查找表的形式表示,因此(类似状态的)泛化训练是不切实际的,而且平均策略的更新需要遍历整个游戏树,这就给大型游戏带来了维数灾难。


    虚拟自我对弈(Fictitious Self-Play,FSP)通过引入基于样本的机器学习方法解决这些问题。对最佳反应的逼近是通过强化学习学到的,平均策略的更新是通过基于样本的监督学习进行的。但为了提高采样效率,智能体之间的交互由元控制器协调,并且与学习是异步的。


    Heinrich 和 Silver 介绍了神经虚拟自我对弈(NFSP),将 FSP 与神经网络函数近似结合起来。一个玩家由 Q-学习网络和监督式学习网络组成。该算法通过贪婪深度Q学习(greedy deep Q-learning)计算一个「最佳反应」,通过对智能体历史行为的监督学习计算平均策略。它通过引入预期动态来解决协调问题——玩家根据它们的平均策略和最佳反应展开行动。这是第一个在不完全博弈中不需要任何先验知识就能学习近似纳什均衡的端到端强化学习方法。


    然而,由于对手策略的复杂性和深度 Q 网络在离线模式下学习的特点,NFSP 在搜索空间和搜索深度规模较大的游戏中表现较差。本文提出了蒙特卡洛神经虚拟自我对弈(Monte Carlo Neural Fictitious Self Play,MC-NFSP),该算法结合了 NFSP 与蒙特卡洛树搜索(Monte Carlo Tree Search)。研究人员在双方零和的棋牌游戏中评估了该方法。实验表明,在奥赛罗棋中,MC-NFSP 将收敛到近似纳什均衡,但 NFSP 无法做到。


    另一个缺点是在 NFSP 中,最佳反应依赖于深度 Q-学习的计算,这需要很长时间的计算直到收敛。在本文中,研究人员提出了异步神经虚拟自我对弈(ANFSP)方法,使用并行的 actor learner 来稳定和加速训练。多个玩家并行进行决策。玩家分享 Q 学习网络和监督学习网络,在 Q 学习中累积多个步骤的梯度,并在监督学习中计算小批量的梯度。与 NFSP 相比,这减少了数据存储所需的内存。研究人员在双人零和扑克游戏中评估了其方法。实验表明,与 NFSP 相比,ANFSP 可以更加稳定和快速地接近近似纳什均衡。


    为了展示 MC-NFSP 和 ANFSP 技术在复杂游戏中的优势,浙大研究人员还评估了算法在多人 FPS 对战游戏的有效性,其中 AI 智能体队伍和人类组成的队伍进行了比赛,新提出的系统提供了良好的策略和控制,帮助 AI 战胜了人类。


    神经虚拟自我对弈


    虚拟对弈(FP)是根据自我对弈学习纳什均衡的经典博弈论模型。在每次迭代的时候,玩家队伍根据对方的平均策略做出最佳回应,并更新其平均策略。在特定的游戏场景(如零和游戏)中,玩家在虚拟对弈中的平均策略可以达到纳什均衡。因为 FP 主要是针对正规博弈,Heinrish 等人将 FP 扩展为虚拟自我对弈,FSP 致力于遍历游戏扩展形式的游戏树,有可能在更大规模的游戏中找到纳什均衡。但是 FSP 方法需要玩家和对手遵循动作顺序,因此它不适合信息不完整的游戏。


    玩家和对手需要遵循动作顺序的要求使得 FSP 不适用于信息不完整的游戏。神经虚拟自我对弈(NFSP)是一个在信息不完整的游戏上学习近似纳什均衡的模型。该模型结合了虚拟博弈和深度学习。在每一步,玩家会选择混合使用最佳反应和平均策略。玩家通过深度 Q 学习接近最佳反应,并通过监督学习更新平均策略。只有当玩家根据最佳反应决定动作时,状态-动作对(St, at)会被存储在监督学习记忆中。


    蒙特卡洛神经虚拟自我对弈(MC-NFSP)


    该算法利用两种神经网络:蒙特卡洛树搜索的策略-估值网络(policy-value network)(如最佳反应网络,bestresponse network)和监督学习的策略网络(如平均策略网络)。最佳反应网络如图 2 所示。神经网络的输入是边界状态。策略-估值网络有两种输出:策略 p(当前状态到动作概率的映射)和估值 v(指定状态的预测值)。估值范围为「0,1」,其中输掉比赛的对应估值 0,赢得比赛的对应估值 1。在浙大研究人员提出的网络中,relu 激活函数用于卷积层;dropout 用于全连接层以减少过拟合;softmax 用于策略概率。策略网络几乎与最佳反应网络相同,但前者仅输出策略 p 0(不会输出估值),而这也是玩家的平均策略。


    实验


    浙大研究人员在改进版无限制州扑克(Leduc Hold』em)中对 ANFSP 和 NFSP 进行比较。为了简化计算,浙大研究人员在无限制德州扑克中将每轮的最大赌注大小限制为 2。实验研究了改进版无限制德州扑克中 ANFSP 对纳什均衡的收敛性,并以学得策略的可利用性作为比较标准。


    图 5 显示在改进版无限制德州扑克中 ANFSP 接近纳什均衡。可利用性持续降低,并在 140w 个游戏片段后稳定在 0.64 左右。训练时间约 2 小时。


    在第一人称射击游戏(FPS)中的评估


    为了在信息不完整的复杂游戏中评估本文算法的有效性,研究人员在一个 FPS 游戏上训练了该算法,并且让它与人类对战。本次实验中使用的 FPS 平台是由浙大研究人员设计的。游戏场景是两个队伍(10 VS 10)的攻防对抗。在训练过程中,一方是 MC-NFSP,另一方是由上千场人类游戏(SL-Human)训练的记忆。该实验在固定的封闭式 255 x 255 正方形地图上进行。整个地图被分为 12 x 12 个区域,每个区域有一个 20 x 20 的正方形。


    与本文之前的研究不同,这两个网络是同时为外部队伍和内部队伍构建和训练的。图 8 显示了外部队伍的训练结果(内部队伍的训练结果与此类似)。从图中不难看出,训练收敛得非常快(少于 150 个片段,每个片段有 5 场游戏)。外部队伍对战 SL-Human 的胜率提高了 80%,而训练损失接近 0。



    论文:Monte Carlo Neural Fictitious Self-Play: Achieve Approximate Nash equilibrium of Imperfect-Information Games


    论文地址:https://arxiv.org/abs/1903.09569


    摘要:人工智能领域的研究人员已经用 AI 在信息完整的大规模游戏上达到了人类水准,但要在信息不完整的大规模游戏(即战争游戏、足球教练或商业策略游戏)上实现最优结果(即近似纳什均衡)仍是一大挑战。神经虚拟自我对弈(NFSP)算法可以通过自我对弈,在没有先验领域知识的情况下有效学习信息不完整游戏的近似纳什均衡。但是,它依赖于深度 Q 网络,但这种网络是离线的而且很难融入对手策略不断变化的在线游戏,因此深度 Q 网络无法在游戏中用大规模搜索和深度搜索来达到近似纳什均衡。本文中,我们提出了蒙特卡洛神经虚拟自我对弈(MC-NFSP)算法,该方法结合了蒙特卡洛树搜索和 NFSP,大大提高了模型在信息不完整的大规模零和游戏中的表现。实验证明,该算法可以利用大规模深度搜索达到 NFSP 无法实现的近似纳什均衡。此外,我们开发了异步神经虚拟自我对弈(ANFSP)算法,该算法使用异步架构和并行架构来收集游戏经验。在实验中,我们发现并行 actor-learner 能够进一步加速和稳定训练。


    国内人工智能领域最具竞争力的几所高校


    忽如一夜AI来,全国高校专业开。面对席卷全球的AI浪潮,国务院《新一代人工智能发展规划》,国内AI教育迈进“野蛮生长”状态,各大高校纷纷相应号召成立人工智能学院,势要补齐我国500万AI人才缺口。有高校厚积薄发,也有高校早早入局,已经在AI领域研究多年,并取得了瞩目的科研成果。如今高考在即,有志在AI领域大有可为的广大学子们,高校的选择成为关键。今天,沣华君盘点了国内16所高校,一起看看国内一流高校在人工智能人才培养上都有哪些表现。

    近日,美联社报道,特朗普政府计划缩短发给部分中国公民的签证有效期,这“部分公民”中包括了专业在机器人、航空和高科技制造等领域的部分中国学生,他们的签证有效期将被限制为一年,新规自6月11日开始实施。

    7年LinkedIn发布了业内首份《全球AI领域人才报告》,截止2017年一季度,基于领英平台的全球AI领域技术人才数量超过190万,其中美国相关人才总数超过85万,高居榜首,而中国的相关人才总数也超过5万人,位居全球第七。

    管人才的绝对数量上存在显著差距,在中美AI人才的学历对比方面,中国研究生及以上学历的人才占比明显更高一筹,以62.1%领先于美国的56.5%。

    此外,中美两国AI人才在不同细分领域的分布则“各擅胜场”:美国的AI基础层人才占比超7成,集中度很高,而中国在AI技术层和应用层的人才分布则更为广泛,特别是在机器人、图像识别、精准营销和自动驾驶等领域。

    最近这几年,国内高校纷纷响应教育部《高等学校人工智能创新行动计划》号召,开设出AI相关专业,其中不乏几所顶尖高校,早已在AI领域研究多年。下面,沣华君就为大家盘点几所国内领跑AI专业的高校。

    一、清华大学:智能技术与系统国家重点实验室

    华大学计算机科学与技术系(简称计算机系)成立于1958年,在2006年、2012年全国学位与研究生教育发展中心开展的一级学科整体水平评估中,以总分满分100分的成绩排名第一。

    智能技术与系统实验室中心实验室依托在清华大学计算机科学与技术系,主要从事人工智能(基本原理和方法)的基础与前瞻性研究,智能信息处理,智能机器人,与认知神经科学、心理学等的交叉学科等方面的研究,以及与这些理论相关的应用研究与系统集成。

    实验室承担了多项国家重点科研任务,一些研究已达到国际水平,如:“具有交互和自学习功能的脱机手写汉字识别系统和方法”、“人工智能问题分层求解理论及应用”先后获得了国家科技进步奖和自然科学奖。

    二、北京大学:智能科学系

    能科学系成立于2002年7月,主要从事智能感知、机器学习、数据智能分析与智能计算、智能机器人等方向的基础和应用基础研究,侧重于理论、方法以及重大领域应用上。

    北大智能科学系依托于视觉听觉信息处理国家重点实验室,实验室以实现高度智能化的机器感知系统为目标,在生物特征识别研究方面处于国际领先地位。

    智能科学系在著名的软件与人工智能专家、我国载人飞船工程软件专家组组长何新贵院士和长江特聘教授查红彬教授的带领下,重点开展机器视觉、机器听觉、智能系统与智能的生理心理基础等研究。

    以北大智能科学研究人员为技术核心的北大指纹自动识别系统,是国内唯一能与国外系统抗衡的自主知识产权,是中国第一家也是唯一的一家提供公安应用全面解决方案的系统,拥有中国指纹自动识别技术产品第一市场占有率。

    三、复旦大学:类脑智能科学与技术研究院

    旦大学类脑智能科学与技术研究院(以下简称研究院)于2015年3月筹建成立,是复旦大学校内的独立二级研究机构。其前身为复旦大学第一批跨学科交叉国际化研究中心——计算系统生物学研究中心,成立于2008年。

    研究院目前在建五个核心功能平台和一个国际合作研发中心,主要包括:

    一是以脑高级认知功能的多信息反馈处理机制研究为核心的神经形态计算仿真平台;

    二是以多尺度多中心重大脑疾病数据库和算法开发为基础的智能诊治数据示范平台;

    三是依托高端医疗影像设备集群,为生物医学转化研究和信息产业智能化提供试验技术支撑的综合生物医学影像平台;

    四是以开发深度学习、强化学习和自组织学习等机器学习算法以及可穿戴设备、类脑芯片、健康服务机器人等为目标的类脑智能软、硬件开发平台;

    五是集孵化加速、产业联盟、投资基金为一体,为类脑智能创新项目及企业提供应用技术资源和孵化服务的类脑智能产业化平台;

    六是依托已有的欧洲人类脑计划、美国脑计划等国际合作的数据、学术资源,建设类脑智能国际合作节点和人才培养中心。

    四、浙江大学:人工智能研究所

    在上世纪80年代,浙江大学就建立了人工智能研究所,首任所长就是国内著名的计算机科学家、被人尊称为“中国人工智能研究开拓者”的何志均,隶属计算机科学与技术学院。

    从1981年至今,浙大人工智能研究所见证和参与了人工智能的一系列变化。何志均担任所长时期,人工智能的研究还处于以规则、逻辑和符号为主的传统研究阶段;到了第二任所长潘云鹤带队的时候,人工智能与计算机辅助设计和图形学走到一起。

    到现在,人工智能进入大数据阶段,浙大在计算机视觉领域已经建立了相当大的优势。

    人才输出方面,在阿里巴巴、网易这些互联网科技公司外,海康威视、浙大网新、浙江大华等浙江企业都较早介入人工智能的研发,而浙大成了他们重要的合作伙伴和人才储备库。

    五、上海交通大学:智能人机交互研究所

    能人机交互研究所隶属计算机科学与工程系,长期目标是探索人类大脑智能信息处理的机理和认知过程,为智能信息处理提供新型的计算结构和算法,开发自然、友好的人-机交互系统。

    另外,上海交通大学还联合微软于2005年9月成立了智能计算与智能系统重点实验室,以实现“使未来的计算机和机器人能够看、听、学,能以自然语言的方式与人类交流”这一共同使命

    代表性的成果有脑机交互的多模态疲劳驾驶检测系统、基于脑电的脑功能康复训练平台和认知型智能人机口语对话系统。

    六、西安交通大学:人工智能与机器人研究所

    工智能与机器人研究所成立于1986年,其前身是自动控制专业计算机控制教研室。研究所是“视觉信息处理与应用国家工程实验室”的支撑单位,并在教育部、国家外国专家局“高等学校学科创新引智计划”的支持下与国际知名学者合作组建了“认知科学与工程国际研究中心”。

    研究所作为“模式识别与智能系统”国家重点学科,按照控制科学与工程一级学科招收博士研究生,是自动化学科博士后流动站组成单位。

    在科学研究方面,在学术带头人、所长郑南宁院士的主持下,主要进行以计算机视觉与模式识别为基础的智能信息处理结合学科发展前沿。

    七、西北工业大学:音频、语言与语言处理组

    北工业大学音频、语音与语言处理组(ASLP@NPU)隶属于陕西省语音与图像信息处理重点实验室。

    研究组成立于1995年,经过十几年的快速发展,已形成了人机语音交互、语音与音频信号处理、情感与听视觉多模态处理、多媒体内容分析与检索等主要研究方向。

    目前实验室已经与百度、搜狗、阿里巴巴、微软、腾讯、IBM、三星、华为、中兴、小米、京东、云知声、出门问问、Roobo、哈曼等著名IT公司和多家初创公司开展了广泛深入的科研合作,与腾讯建有“西北工业大学-腾讯媒体信息技术联合实验室”,与明星创业公司云知声建有“西北工业大学-云知声智能语音交互联合实验室”。

    八、华中科技大学:自动化学院

    中科技大学自动化学院是由原控制科学与工程系和原图像识别与人工智能研究所于2013年合并组建的学院。

    模式识别与智能系统是自动化一级学科的重要二级学科。迄今为止,自动化系在原 “图像识别与人工智能研究所”和“控制科学与工程系”的这两个学科点承担了百余项国家、国防与行业项目。

    九、厦门大学:智能科学与技术系

    006年12月,经国家教育部批准,厦门大学正式设立“智能科学与技术”本科专业,并于2007年6月经学校批准成立“厦门大学智能科学与技术系”。2007年9月,本系迎来了第一届本科新生。

    目前承担多项国家863、国家自然科学基金、福建省科技基金等项目,拥有“福建省仿脑智能系统重点实验室”、“智能信息技术福建省高校重点实验室”和“厦门大学语言技术中心”三个平台。

    此外还有“艺术认知与计算”、“自然语言处理”、“智能多媒体技术”、“人工大脑实验室”、“智能中医信息处理”等多个研究型实验室,为培养高质量的学生提供了必要的保障。

    十、中国科学技术大学:计算机科学与技术学院

    国科技大学于1958年建校时就设置了计算机专业。学院的支撑实验室有:国家高性能计算中心(合肥)、安徽省高性能计算重点实验室、安徽省计算与通讯软件重点实验室、 多媒体计算与通信教育部-微软重点实验室、中国科大超级运算中心和信息科学实验中心。

    其中,多媒体计算与通信教育部—微软重点实验室主要从事人机自然语音通信、语义计算与数据挖掘等方面的研究。

    人机自然语音通信方面,主要研究中文信息处理、人类视听觉机理、语音语言学等。

    语义计算与数据挖掘方面,主要研究自然语言驱动的计算、多媒体内容的语义标注、自动问答、语义社会网络、数据与知识工程、隐私保护与管理中的语义计算等。

    十一、南京理工大学:计算机科学与工程学院

    京理工大学计算机科学与工程学院始建于1953年创办的哈尔滨军事工程学院模拟计算机研究组,2005年12月更名为计算机科学与技术学院,2012年5月改为现名。

    在计算机科学与人工智能技术领域,学院学科实验室和平台比较齐整,拥有“高维信息智能感知与系统”教育部重点实验室、“社会安全信息感知与系统”工信部重点实验室、“社会公共安全图像与视频理解”江苏省重点实验室,“社会公共安全科技”江苏省2011协同创新中心,江苏省公安厅“社会公共安全”重点实验室,教育部、国家外国专家局“高维信息智能感知与系统”111创新引智基地。

    同时学院与国内知名企业建立系列产学研协同创新平台,具有南京理工大学-中航科技智慧城市大数据联合实验室、深城院-南理工大数据技术联合实验室等。

    除了以上几所,其他一些高校依托多年积累的专业实力,也纷纷加入成立AI学院的阵营。

    十二、中国科学院:人工智能技术学院

    中国科学院大学人工智能技术学院成立于2017年5月28日,是我国人工智能技术领域首个全面开展教学和科研工作的新型学院。

    人工智能技术学院面向国际科学前沿,下设模式识别、人工智能基础、脑认知与智能医学、智能人机交互、智能机器人、智能控制等6个教研室。

    拥有模式识别国家重点实验室、复杂系统管理与控制国家重点实验室、国家专用集成电路设计工程技术研究中心、中国科学院分子影像重点实验室等研究机构。

    十三、西安电子科技大学:人工智能学院

    2017年11月2日,西安电子科技大学人工智能学院正式揭牌成立,这是教育部直属高校首个致力于人工智能领域高端人才培养、创新成果研发和高层次团队培育的实体性学院。

    十四、重庆邮电大学:人工智能学院

    2018年2月7日,重庆邮电大学联手科大讯飞,成立人工智能学院,今年就要开始招生,可以说依托本身的专业科研实力再充分利用企业的优势资源,开始布局人工智能这个无限发展的高科技领域,使重邮的未来发展值得期待!

    十五、南京大学:人工智能学院

    2018年3月6日,南京大学正式成立人工智能学院,隶属计算机科学与技术系,另据悉,南京大学人工智能学院是南京市政府合作项目,与计科院、软件学院平级。

    院长由南大教授周志华担任。周教授从事人工智能研究 20 多年,是人工智能国际学术舞台上有重要影响力的科学家、机器学习领域的“牛人”,同样也是中国首个当选了国际人工智能学会(AAAI)、美国计算机学会(ACM)、美国科学促进会(AAAS)的会士、国际电气电子工程师学会(IEEE)和国际模式识别学会(IAPR)五大主流国际学会的华人“大满贯”会士第一人。

    十六、哈尔滨工业大学:人工智能研究院

    2018年5月5日,哈尔滨工业大学正式成立人工智能研究院,围绕「交叉研究中心」的定位,研究人员在行政上归属各自所在院系,但在研究院里,有共同的研究对象和统一的物理空间。研究员将围绕理论、技术、平台、应用4个层次、7个方向构建。

    总结:

    中国人工智能市场增长惊人,伴随而来的,是对AI领域人才需求的激增。

    对人才的需求具体到细分领域,当前对AI基础层人才的需求最为旺盛,尤其是算法、机器学习、GPU、智能芯片等方面,相对于技术层与应用层呈现出更为显著的人才缺口。

    市场需求的激增,各种利好文件的推出,国内AI的未来一片欣欣向荣。当然人才培养不是立竿见影,未来还需要政府、高校、企业等各方在教育上的持续投入,才能逐渐填补人工智能的人才缺口,让人工智能产业得到快速发展。


主题帖 772 关注 0 粉丝 0
情感指数

链路大数据分析置信度 74.72 %

TA的主题帖
主题相关
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表