具身 AI 的实验:一个团队的 Alexa Prize 夺冠历程
导读:机器之心原创 作者:杨德泽 亚马逊 Alexa Prize 的打分系统每 4 个小时就会更新一次,这将决定着 SEAGULL 团队最终结果,在经历 206 天的代码更新
机器之心原创
作者:杨德泽
亚马逊 Alexa Prize 的打分系统每 4 个小时就会更新一次,这将决定着 SEAGULL 团队最终结果,在经历 206 天的代码更新之后,他们才能知道他们摘得了冠军,在此之前则是一次又一次打分的 " 胆战心惊 "。
在总时间超过一年的比赛中,他们得过从 1-5 的所有分数。4 月 29 日凌晨 2:50,也就是比赛结束前的最后十分钟,SEAGULL 团队提交了他们最后一次代码。之后,亚马逊就会根据用户的综合打分,为这次 Alexa Prize 决出最终冠军得主。
在人工智能领域,Alexa Prize 已经成为了全球最受瞩目的人工智能竞赛之一,它奖金丰厚,用户群体庞大,还提供优质的计算资源供参赛团队使用。对于最终能够进入决赛的高校队伍来说,这和平时在学校里的实验室环境完全不一样,它不是面对实验室写出一篇 paper,而是要做出一个真正能够对话的机器人。
据亚马逊官方介绍, Alexa Prize 竞赛面对大学生团队、学术界和工业界有兴趣推进 AI 科学的研究人员。比赛分为公共基准测试阶段和实时交互阶段,而仅有 5-10 支队伍能通过公共基准测试阶段的预选去完成最终的竞逐。
与往年不同,今年的挑战增加了 SimBot 项目,专注于推进具身 AI 的研究。SimBot 采用亚马逊自己开发的 Arena 模拟器,这是一个类似游戏的 3D 虚拟环境,设定为未来世界的实验室,具备各种可交互的道具和可操作的仪器设备,和一个能在 Arena 中自由行动玩耍、名叫 SimBot 的小机器人。用户的目标是通过语音指导机器人,使用环境中的道具完成各种或日常或新鲜的任务,例如制作一杯咖啡,使用时光机器修复破损的碗,或使用镭射光线为派对解冻蛋糕。
相比于传统对话机器人只需要处理语言输入并给出回复,SimBot 任务的难点在于,机器人还需要处理视觉信号从而 " 看懂 " 环境,并通过执行动作改变环境中物体的状态,达成任务目标。因此,SimBot 中的语言理解和对话建模涉及多个模态(语言 + 视觉)的复杂交互,而从接受用户指令到给出出行动方案的过程,又涉及对物理状态的推理决策和行为规划。
对于 SimBot 的评估也就变成了一个复杂的任务。Amazon Echo Show 是一款类似天猫精灵的语音视频交互产品,最终成绩将通过它背后的打分系统来产生,其用户包含了从 8-80 岁各类人群,这也意味着,入选的队伍要面对的是真实的亚马逊产品用户而懂技术的学术评委。据亚马逊官方介绍,传统的具身化人工智能任务通常采用自动化和非交互式的评估流程,重点是任务成功率,而 SimBot 使用交互式的人机循环评估,更加注重整体用户体验。
如何在一个特定的开发环境里短时间做出一个可对话、能感知、有互动的 AI 呢?这是所有参赛队伍需要面对的问题,它不光是技术方面的整合和优化,另一方面也是产品方面的创新,比如:如何让自己的机器人更受用户喜爱,如何让系统运行更快更稳定等等。
· 谁在参加亚马逊 Prize?
张亦弛是密歇根大学博士三年级的学生,研究方向是对话系统,偶然有一天收到自己导师发来的一个链接,这就 SEGULL 团队参加 Alexa Prize 的开始。" 开发出一个非常棒的聊天机器人,拿到这样一个量级的比赛第 1 名,让大家一块分奖金,这种体验得多棒。"
SEGULL 团队共有 9 个人,全部来自其密歇根大学 SLED 实验室。" 我们参与的一个重要原因是 SimBot 挑战是具身化人工智能领域的一个先驱性竞赛,与我们实验室的研究重点完全一致。"SLED 其英文含义是 Situated Language and Embodied Dialogue(情景化语言和具身对话), SLED Lab 主要研究方向是具身智能和自然语言处理,包括具身以及多模态(视频、3D 等)情况中的自然语言理解、具身智能体的建模与动作规划、情景化人机对话系统、物理常识推理(physical commonsense reasoning)、心智理论(theory of mind)、持续学习等。
SLED Lab 相信,人类语言的使用方式,是由我们的目标、共同经历,以及我们对彼此的能力、知识和判断所塑造的。通过对丰富的物理、情境、沟通语境构建计算模型,以及创建能和人类通过语言沟通的具身智能体,SLED 实验室正在推进具身智能和 NLP 的下一代技术。
具身智能是人工智能领域的集大成者,也被一些科学家认为是人工智能学界的终极问题,最终目的就是要造出一个能够对话、能够感知、能够对人类行为能够做出反馈的机器人。
" 具身智能是 AI 领域皇冠上的明珠,因为它涵盖了人工智能领域的方方面面,"SLED 实验室导师 Joyce Chai 教授表示:"Simbot 是机会也是挑战,它为团队提供了一个探索交叉学科和发现科研问题的绝佳平台。"
亚马逊 Alexa 大赛由来已久,最初的愿景是 " 正常地与人类交谈 20 分钟 "。这个看似轻松的目标事实上包含了具身智能的方方面面,按照官方说法,Alexa Prize 的目标是建立一个能够进行自然、有趣和有深度对话的人工智能系统,该系统能够与人类进行开放领域的对话,包括社交对话、娱乐、教育等。
SEAGULL 团队将其看作是具身智能的一次尝试。
" 一种能力强大的具身 AI 应该能够在现实世界中运作,操作环境中的物体,理解和处理多模态输入,并通过与人类交流不断提高自己的能力。开发出一种高效的具身智能体的潜在影响是巨大的,从在餐厅中充当服务员和帮助老年人完成家务,到实现通用人工智能(AGI)的愿景。" 正如 SEGULL 技术报告提到的这样。
Alexa Prize 第二阶段竞争的主要内容是建模并持续优化,直到做出一个能够和人类对话互动的机器人,而评判的标准就是,3D 虚拟环境里的 " 人 " 能否真的像人。在这个模糊的目标之下,包含了具身智能中的感知、交互、决策等等方面,问题在于,如何去做?
· 教会一个机器人真正地对话
在一个普普通通的餐桌上,放着一个开了一个缺口的碗,屏幕上出现一双手作为第一人称虚拟环境的表示,如果你告诉这台机器," 给我一杯牛奶 ",它会先把碗放进 SEAGULL 设计的时光机里,让这个碗回到缺口之前,然后从冰箱内拿出牛奶,倒入碗中。如果你愿意,还可以让 AI 帮你在 3D 虚拟环境中帮你做一顿早餐。
SEAGULL 团队认为,自己和其他团队形成区别的关键是三种形式的洞察:
" 第一种是它的「情境洞察」,指的是机器人对当前情境的理解。在 SEAGULL 中,我们设计了一个全面的状态跟踪系统,可以跟踪游戏中的大量信息,包括物体的位置和物理状态、用户和机器人之间的互动历史,以及提及的目标和任务进展。这些丰富的信息影响机器人做出的每个决策,使其能够始终做出理性决策。
第二种意识形态是「知识洞察」。我们注意到许多与我们的机器人交互的用户不确定要给出哪些指令或如何完成给定的任务。为了更好地帮助用户,我们为机器人设计了一个专门的知识库。基于这个知识库,我们开发了一个基于知识驱动的建议策略,为用户在游戏中的进展提供指导和支持。在比赛过程中,我们观察到这个功能对用户的体验产生了积极的影响,使他们感到更加自信和舒适。
第三,我们的机器人具备「自我洞察」,也就是它对自身能力和限制的认识。这种意识反映在我们的机器人对任务的解释和规划上。当任务变得困难时,机器人会与用户合作,共同制定更合理的策略。例如,在游戏中,机器人可以要求用户协助推动物体,或者寻找其他方法来完成任务。这种合作和灵活性有助于提高机器人在现实世界中的适应能力。"
在调整过认知之后,SEAGULL 团队的目标不再只是智能化而更多的是产品化,重心会放到用户和系统整体性上来。杨佳宁表示," 在学术环境中,研究人员经常在过度规范化的环境中工作。我们被屏蔽了维护可靠、用户友好的服务所需的工作,仅关注核心算法组件。然而,在现实中,成功的人工智能应用涵盖了一个必须精心设计的流程。这个流程必须提供可靠的服务,提供愉快的用户体验,并能处理训练数据分布之外的情况。"
SEAGULL 团队的机器人主要根据人的问题来生成回复或者做出行动,在机器人系统内部,SEAGULL 团队设计有一个技能库、知识模块和决策模块,它们也决定了如何对人类的提问做出回应。它和人的社交在某种意义上具有相似性,这意味着,团队可以根据他们的希望,为用户定制对话进行的方向。他们还增加了一个状态跟踪模块,它可以更新回应用户的技能选择,并为选择最佳技能跟踪上下文情境。
" 一个智能机器人不仅应该遵循关于做什么的命令,还应该对用户的社交意图作出适当的回应," 张亦弛说道。" 例如,当机器人表现良好时,用户可能会赞扬它;当机器人表现不佳时,用户可能会表达沮丧或失望;或者用户可能出于对游戏的好奇提出问题。在 SEAGULL 中,我们进一步促进了这种社交互动,这是一个至今未被广泛探索的维度。"
一个场景令张亦弛至今记忆犹新,当自己的导师 Joyce Chai 使用过自己的产品之后跟他开玩笑 " 有点愣 ",他解释道,这只是一个技术上的小瑕疵," 一切尽在掌握。"
THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
版权声明:本文部分来自互联网,由小编精心所写,本文地址:http://www.zhubian88.cn/smbk/92462.html,如需转载,请注明出处!