在计算机控制领域,通用人工智能(AGI)的实现一直备受关注。近期,由北京人工智能研究院(BAAI)与新加坡南洋理工大学合作完成了一项重要研究,成功提出了一种新的计算机控制框架——,这一研究向通用人工智能的实现迈出了重要的一步。
项目地址:General Computer Control
添加图片注释,不超过 140 字(可选)
论文地址: : A Agent for Red Dead II as a Case Study
代码:https://github.com/BAAI-Agents/Cradle
添加图片注释,不超过 140 字(可选)
以下为主要内容:
引言
添加图片注释,不超过 140 字(可选)
该研究针对现有基础模型在跨场景任务中的局限性,提出了通用计算机控制(GCC)的新设定。GCC的目标是通过模拟人类计算机交互方式,仅利用屏幕图像和键盘鼠标操作,实现任意计算机任务的控制。CRADLE框架包含信息获取、自我反思、任务推断、技能生成、动作规划和记忆六大模块,通过多模态信息处理、长期记忆和自主探索,以实现通用和自我提升的控制能力。
通用计算机控制(General Computer Control (GCC))
添加图片注释,不超过 140 字(可选)
在日益数字化的世界中,计算机是最重要和最通用的接口。计算机任务涵盖多种场景,包括创建数字工件的复杂软件、日常生产力软件、应用程序、网站、视频游戏。通过提供标准化的通用观察(即屏幕和音频)和抽象动作(即键盘和鼠标操作),计算机是开发基础代理的理想测试平台。因此,作者提出 通用计算机控制(GCC) 设置:
构建仅通过标准观察(即屏幕和音频)和输入设备操作(即键盘和鼠标)即可掌握任何计算机任务(例如软件、游戏等)的基础Agent。
这是一个不平凡的环境,带来了重大挑战,包括:
i) 多模式观测,需要以不同模式对齐数据,以便更好地理解和决策;
ii) 准确控制设备操作(例如键盘和鼠标)以与不同目标软件功能进行交互的必要性;
iii) 部分可观察性导致需要长期记忆来存储过去的知识,并能够处理和重用它来解决新任务;
iv)以结构化方式有效探索环境,以自主发现更好的策略和解决方案,即自我改进,因此代理能够泛化数字世界中的无数任务。
CRADLE框架
为了追求 GCC,作者提出了 Cradle ,这是一个新颖的框架,它可以正确处理 GCC 提出的挑战,即观察任何环境并与之交互,处理任何信息和语义差距,而不依赖于任何典型的 API (计算机用户用不了的API)。
Cradle 由六个主要模块组成:1) 信息收集 以处理多模态输入,2) 自我反思 以重新思考过去的经验,3) 任务推理 以选择最佳的下一个任务,4) 技能管理 以生成和更新相关技能给定的任务,5)用于决定键盘和鼠标控制的具体操作 的行动计划,以及6)用于存储和检索过去的经验和已知技能的内存 。
添加图片注释,不超过 140 字(可选)
环境交互:CRADLE通过视频输入获取屏幕信息,并输出键盘鼠标操作。信息获取模块负责提取文本和视觉信息。
推理:包括自我反思、任务推断、技能生成和动作规划四个模块,用于理解当前状态,推断下一步任务,生成相关技能和制定具体操作。
记忆:包含情景记忆和程序记忆,用于存储和检索过去经验和技能。
实验验证
该研究将CRADLE应用于AAA游戏《荒野大镖客2》,在主线任务和开放世界任务中展示其学习技能、跟随剧情和完成任务的能力。
添加图片注释,不超过 140 字(可选)
在7个代表性任务上,CRADLE的表现明显优于去除了自我反思和任务推断的版本。
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
添加图片注释,不超过 140 字(可选)
结论
该研究成功验证了框架在复杂环境下的通用控制能力,为发展通用基础模型提供了重要启发。未来工作将继续扩展到更多游戏和软件,并增加音频输入,以进一步提升其通用性和实用性。
这一突破性研究成功展示了一种通用计算机控制的新框架,为实现通用人工智能控制迈出了关键的一步。CRADLE框架的多模态理解、长期记忆和自主探索能力,使其有望在计算机控制领域取得更广泛的通用性和实用性。