在这个快速变化的时代,智能体技术的崛起无疑给我们的工作场景带来了前所未有的变革。你是否曾想象过,与一个智能体一起工作会是怎样的体验?本文将带你一探究竟智能体的奥秘,并探讨它们如何成为我们未来工作生活中不可或缺的伙伴。
在2023年4月7日,斯坦福大学与谷歌的研究团队在arXiv预印本文库发布了一篇引人注目的研究论文,题为《生成式智能体:人类行为的交互式模拟》。这项研究开辟了人工智能领域的新篇章,通过创造性的实验展示了智能体模拟人类行为的潜力。
实验的核心是一个名为Smallville的虚拟小镇,研究团队在此安置了25位虚拟居民。通过将ChatGPT的先进技术整合到这些虚拟角色中,这些居民被赋予了记忆、交流和互动的能力,从而转变为具有生成性的智能体。
研究结果显示,这些智能体在接入ChatGPT后,展现出了令人惊叹的类似人类的行为模式。它们不仅能够执行日常生活中的基本活动,如烹饪和沐浴,还能展示出对安全和社交礼仪的意识。例如,智能体会在做完饭后记得关闭火炉,或在澡堂内遇到其他人时排队等候。更有趣的是,这些智能体在路上相遇时,能够像人类一样进行打招呼和闲聊。
最为引人注目的是,在2月14日情人节这天,Smallville的智能体们竟然自发组织了一场盛大的派对。这一行为展示了智能体在模拟人类社交活动方面的惊人潜力,也预示着人工智能在理解和复现复杂人类行为方面的巨大进步。
随着关于Smallville虚拟小镇的研究论文的发布,AI智能体领域迅速成为热门话题。科研人员成为这一趋势的先行者,他们意识到,随着生成式AI技术的日益成熟和大型模型的广泛应用,计算机模拟人类社会或测试模型技能已成为可能。
众多研究团队开始将自研的大模型应用于《我的世界》、《荒野大镖客》等开放式世界游戏中,将这些虚拟环境作为实验的新舞台。例如,英伟达的首席科学家Jim Fan领导的团队在《我的世界》中创造了名为Voyager的AI智能体,并让其在这个无边界的世界中自由探索。
Voyager智能体很快展现出了卓越的学习能力。它不仅能够自学掌握游戏中的关键技能,如挖掘、建造房屋、收集资源和狩猎,还能根据不同的环境条件调整资源收集策略。随着模型接入能力的不断提升,Voyager的表现也愈发出色。
接着就是商汤科技联合清华大学、上海人工智能实验室等机构发布了通才AI智能体“Ghost in the Minecraft(GITM)”。
同样是将大语言模型(LLM)整合进《我的世界》,GITM在《我的世界》内主世界的所有技术挑战上实现了100%的任务覆盖率(成功通关解锁了完整的科技树),而此前所有智能体的总和只能覆盖30%;另外在“获取钻石”任务上,GITM成功率达67.5%,同样相比于此前的最佳成绩——OpenAI的VPT方法大幅提高了47.5%。

GITM在《我的世界》的任务覆盖率远高于现有AI智能体
那么,现在爆火的AI智能体的本质究竟是什么?它能被用来做什么?为什么我们有了大模型后,还需要有AI智能体?
智能体的概念并非一蹴而就。2023年初,随着AutoGPT等开源项目的发布,以及斯坦福小镇等项目实践,智能体开始进入大众视野。这些项目通过赋予Bot不同的人格和记忆窗口,让它们能够进行自我对话和任务执行,标志着智能体的初步形成。
智能体可以被视为一种模拟人类工作和思考方式的AI系统,能够完成一系列任务。它们可以独立工作,也可以协同多个Bot共同完成任务,类似于人类职场中的个体与团队协作。
有些人可能会好奇,既然存在像ChatGPT这样的先进大模型,为什么我们还需要AI智能体呢?答案其实很简单:尽管现有的大模型功能强大,但它们往往过于泛化,而我们在实际应用中更需要的是具有特定专业能力的AI。
为了更好地理解这一点,我们可以用一个类比来说明:通用大模型就像刚刚毕业的大学生。他们在校园里接受了全面的教育,掌握了广泛的知识。这使得他们能够与任何人就各种话题进行交流。然而,当这些毕业生步入职场,面临具体的专业工作时,他们可能会发现自己难以胜任,因为他们缺乏针对特定工作的深入知识和技能。这也是为什么大多数企业在新员工正式上岗前,都会安排一段时间的岗前培训。
同样的,像ChatGPT这样的大型语言模型虽然能够处理各种通用任务,但在面对一些高度专业化的问题时,它们的表现可能就不尽如人意。为了让这些大模型能够胜任专业任务,我们需要对它们进行进一步的专业训练,让它们能够理解和处理专业领域的数据,以及与特定任务相关的设备进行有效配合。
例如,如果要开发一个自动驾驶的AI系统,我们不仅需要让AI能够识别和处理来自传感器的信息,还需要让它学习有关驾驶技术和交通规则的大量数据。这个过程就像是一个已经具备基础知识和技能的大学毕业生,在接受针对特定职业的培训。通过这样的专业训练,AI智能体将能够更加精准地服务于特定的行业和任务,从而更好地满足我们的需求。
AI Agent 智能体的核心构成:记忆、规划、工具使用与行动——
智能体的记忆模块是其知识库和经验的存储中心。它不仅保存了历史交互记录和学习成果,还能临时存储任务相关信息。有效的记忆机制使智能体能够借鉴以往的经验来应对新挑战。例如,一个具有记忆功能的聊天机器人能够记住用户的喜好和历史对话,提供更加个性化和连贯的交流。记忆模块分为短期和长期两种形式:
短期记忆:用于上下文学习,使智能体能够理解和响应当前对话或任务的即时需求。
长期记忆:通过外部数据库和快速检索系统,智能体能够长期保存和回忆大量信息,这为智能体提供了深度、个性化和专业化的能力。
智能体的规划模块涉及对未来行动的预测、决策和反思。在规划阶段,智能体将复杂任务分解为可管理的小目标,并制定高效行动计划以实现目标。反思阶段则允许智能体评估和优化其规划策略,从经验中学习,并将新知识整合入长期记忆中,以提升未来的决策质量。
智能体的工具使用模块展现了其利用外部资源和工具完成任务的能力。智能体可以通过调用外部API来补充自身的知识库,获取实时信息、执行代码或访问专业数据源。这种能力使智能体在处理非实时更新的数据时,能够通过互联网获取最新信息,或使用专业软件分析大数据,从而提高任务执行的效率和质量。
行动模块是智能体将决策转化为实际响应和执行的环节。智能体根据决策结果选择并执行相应的行动策略,如记忆检索、推理分析、学习和编程等,以适应不同的任务需求。
综合这四个模块,AI Agent 智能体能够在多样化的环境中自主行动和决策,以智能化和高效率的方式完成复杂任务。这种模块化的设计不仅增强了智能体的适应性和功能性,也为其在未来的应用和发展提供了坚实的基础。
AI智能体作为一种前沿技术,拥有广泛的应用潜力,既能在消费端提升用户体验,也能在生产端成为强大的生产力工具。
在消费者市场,AI智能体正逐步超越传统的聊天机器人,进入更多领域。虽然像Siri和Alexa这样的智能助手已经相当普及,但它们的功能受限,有时难以满足用户的期望。如今,新一代AI智能体,依托于强大的大模型,展现出了更高的智能水平,预计将显著提升用户的互动体验。
个性化是AI智能体的另一大优势。以Character.ai为例,其鲜明的个性化特征吸引了大量用户。SimilarWeb的数据显示,Character.ai在今年5月的访问量达到了2.8亿,月增长率为62.55%,用户平均访问时长达到28分钟,远超ChatGPT的8分钟。这表明,用户更倾向于选择具有多样性和个性化的聊天伙伴。

这种个性化的AI智能体在游戏、营销、客服等领域具有巨大的应用潜力。例如,开放世界游戏中的AI智能体NPC,通过自然语言与玩家实时互动,增强了游戏的沉浸感。网易的《逆水寒》就是引入AI智能体NPC的先行者之一。《逆水寒》中的人工智能NPC,每一个都被赋予了独特的背景人设,在与玩家的打字交流过程中,他们会根据玩家的表述做出符合自己人设背景的应对内容。
例如玩家在游戏中的街头,有可能遇到热情的“卖茶女”搭讪,向玩家推销她的商业发展计划,如果玩家拒绝她还会锲而不舍的套路,答应的话则有可能“人财两空”。但这时如果路边遇到巡逻的捕快,捕快则会插入到玩家和“卖茶女”的交流当中,视当时的情况决定下一步的剧情发展,或者直接将“卖茶女”抓入大牢之中。
除了和玩家之间的沟通外,手游中的智能NPC之间也会根据自己的“人设”相互交流进步,从而一步步随着游戏环境而逐渐演变自身内容。也正是因为如此,游戏江湖显得格外的生动,即便开服许久,玩家也能从游戏中找到新鲜感。
AI智能体在生产端的应用前景更为广阔。许多工作需要专业数据支持,这为专用型AI智能体提供了发展空间。例如,北京大学团队开发的ChatLaw,通过大量法律文本和判决文书的训练,已经能够处理一般性法律咨询和文书撰写任务。
多智能体协作模型也展现出了巨大的实用价值。AutoGPT就是一个例子,它能够根据用户设定的角色和目标,调动网上现有的大模型共同完成任务。虽然初期版本并未完全达到预期,但它展示了AI智能体自动完成复杂任务的可能性。
Fable公司的Showrunner则是多智能体模型的另一个成功案例。它能够根据用户要求自动生成剧本,并指导AI智能体按照剧本执行,甚至在用户追求创新时,能够自主互动,创造出未经预设的AI真人秀。Showrunner的案例证明了AI智能体在内容创作领域的潜力。
目前,AI智能体主要应用于软件层面,但随着技术的成熟,它们将能够控制机器人、无人机、自动驾驶汽车等硬件设备,完成更多任务。这一发展预示着AI智能体将对社会生产力产生深远的革命性影响。
随着行业资源逐渐向AI智能体倾斜,AI行业有望摆脱当前的泡沫式繁荣,转向更加稳定和可持续的发展轨道。AI智能体的发展还将带动相关软硬件及基础设施的创新和需求。特别是存储设施方面,由于AI智能体需要根据用户需求持续学习和记忆大量专业信息,因此对向量数据库等新型存储技术的需求将会显著增长。