头图源流:智谱王二小电影
每次不知谈吃什么的时候,齐会珍重古代的旺盛东谈主家,不必我方想,比你我方还懂你的管家就安排的结拜皙白——今天跟着 AI 的发展,这么的场景正在成为现实。
业内渊博觉得,2025 年将是 Agent 爆发之年。Gartner 近期将 agentic AI 列为 2025 年十大时刻趋势之一,并展望 2028 年至少有 15% 的正常责任决议将由 agentic AI 自主完成。
与 GenAI(生成式东谈主工智能) 不同,Agent 是目的驱动型的,能够全齐推行责任过程,合乎、学习、迭代、与其他系统和东谈主类互助,并端到端地完成任务。在智谱 CEO 张鹏看来,Agent 不错看作是大模子通用操作系统 LLM-OS 的雏形。
此前在 10 月,智谱就推出了自主智能体—— AutoGLM。AutoGLM 不仅能够模拟用户的屏幕操作,如点击手机利用,还能在浏览网页时灵验补助用户,涵盖了正常活命中粗犷需用的多个领域,包括打法、网购、舆图导航和火车票订购等。
今天,在其最新的「Agent OpenDay」行为中,智谱展示了 AutoGLM 多项进展,展示了大模子时刻若何将「对话」节约单的互动陶冶为具有高度自主性的操作系统:可自主完成杰出 50 步的复杂操作,并能跨利用范例互助推行任务;支撑数十个网站的「无东谈主驾驶」;此外,基于视觉多模态模子的 GLM-PC 也参加内测阶段,勤劳于于探索通用智能体时刻,兑现像东谈主类雷同操控谋略机。
在 Agent OpenDay 现场,智谱 CEO 张鹏 通过在现场下达语音教导,让 AutoGLM 面对面建群,给现场数百位嘉宾发送了悉数 2 万元的微信红包,况且演示了手机而已招引电脑自动发送文献。
AutoGLM 新升级:挑战更复杂
在行为上,智谱要点展示了其最新升级的 AutoGLM,它能够自主推行复杂且多方法的任务,跨利用处理需求,甚而在全程无东谈骨侵犯的情况下自动操作多平台。
AutoGLM 能够高效完成超长任务链,比如呀在购买暖锅食材的场景中,AutoGLM 无需东谈主工侵犯即可推行 54 步任务,且速率超越东谈主工操作;支撑跨利用任务推行,用户仅需发出节略教导,系统便能自动调度并完成多个利用间的任务;简化了操作过程,用户可通过简便语音敕令启动复杂操作,如一句「点咖啡」便能自动完成从选拔到购买咖啡的一齐过程。
为了陶冶个性化体验,AutoGLM 还引入了「璷黫模式」,通过分析用户偏好和历史行动,主动为用户作念出决议,进一步优化使用体验。
同期,智谱晓示 AutoGLM 启动大限制内测,并将尽快上线成为面向 C 端用户的产物;「10 个亿级 APP 免费 Auto 升级」的商量也已启动;支撑中枢场景和中枢利用的 AutoGLM 标品 API,则会在两周内上线到智谱 maas 通达平台试用。
此外,智谱清言插件也上线了 AutoGLM 功能,支撑搜索、微博、知乎、Github 等数十个网站的「无东谈主驾驶」。
智谱清言插件上线 AutoGLM 功能|图片源流:智谱
GLM-PC :面向「无东谈主驾驶」电脑的一次时刻探索
除了手机和浏览器,智谱还带来了基于 PC 的自主 Agent —— GLM-PC。这是智谱在「无东谈主驾驶」PC 领域的时刻探索,基于其多模态模子 CogAgent 开拓。
GLM-PC 面前照旧开动第一阶段的内测,提供多项中枢功能,包括匡助用户预定和参与会议,并自动发送会议回首;支撑文档处理,如下载、发送、意会和回首文档;在指定平台(如微信公众号、知乎、小红书等)进行关节词搜索并完成回首;具备而已和定时操作功能,支撑而已发教导并推行电脑任务,或在设定时期自动完成任务;此外,GLM-PC 还引入「隐形屏幕」模式,能够在用户责任时自主完成任务,开释屏幕使用空间。
GLM-PC 的设想理念是模拟东谈主类的电脑使用方式——眼睛不雅察屏幕、脑海中进行规画,再通过手部操作推行教导。
凭借这一设想,GLM-PC 能够完成复杂的 PC 任务,甚而不错自主学习和推行通盘为东谈主类设想的利用,推崇出跨平台的宏大才智。这是一种系统级、跨平台的才智,不依赖于 HTML、API,具备更高的才智上限。
不外,智能体在推行复杂业务过程时,通常需要休养大齐数据和利用范例,但由于很多网站和 APP 的 API 枯竭和谐法式,这就会让企业在集成智能体时濒临一些挑战。
对于这少量,智谱 AutoGLM 时刻认真东谈主刘潇指出,AutoGLM 通过图形化用户交互界面来搞定这一问题,而非依赖传统的 API 调用。
与传统 API 集成容易因利用更新而导致失效不同,AutoGLM 模拟东谈主类的操作方式,独一利用界面保握用户可意会况且易于使用,智能体就能够在该界面上奏凯推行任务,从而隐秘了 API 法式化不及带来的问题。
由于 PC 任务的复杂性,面前 GLM-PC 还需要用户输入精确教导,距离全面替代东谈主工办公还有一定差距。但跟着时刻的束缚逾越,GLM-PC 的才智将进一步增强,异日有望为用户提供更为高效、直不雅的 PC 操作体验。
12色吧大模子利用新阶段:从 Chat 走向 Act
对于最近热议的 Scaling Law 是否放缓,张鹏觉得,Scaling Law 放缓仅仅一个名义温顺,背后可能存在更深头绪的原因。
他指出,尽管在说话处理领域可能接近东谈主类说明的极限,但仍有可能通过大齐数据和大限制处理冲破这一瓶颈。在多模态利用和智能体等领域,Scaling 仍然有很大的探索空间。
在张鹏看来,谋略量和灵验信息可能是关节要素,预检会阶段的放缓并不料味着全体进展停滞。事实上,后检会阶段仍然存在 Scaling 效果,尽管这种效果不再像预检会时那样简便地依赖数据量和参数目的加多,而是愈加复杂和致密。
这种冲破恰是现时 AI 时刻发展的中枢之一——若何将大模子从单纯的「意会」层面陶冶到「行动」的才智。大模子的价值不应仅仅当作 chatbot 存在,它的着实价值在于其宏大的「意会」与「展望」才智。
这种才智使得大模子能够深度明白和意会东谈主类的复杂语义、情感以及详细办法,进而进行精确的推理和展望。若何将这些宏大的才智从单纯的文本交互中目田出来,利用到更粗犷、更履行的场景中,就要从面前的「Chat 」走向「 Act」 。
Act,即行动,代表着大模子时刻从意会和展望到履行行动的跨越。这不仅意味着模子能够笔据输入的信息作出响应,更意味着它能在更复杂的动态环境中进行决议,搞定问题,甚而创造新的价值。
在张鹏看来,「现阶段,AutoGLM 十分于在东谈主与利用之间添加一个推行的调度层,很猛进程上转换东谈主机的交互风光。更进军的是,咱们看到了 LLM-OS 的可能,基于大模子智能才智(从 L1 到 L4 乃至更高),异日有契机兑现原生的东谈主机交互。将东谈主机交互范式带向新的阶段。」
AutoGLM 和 GLM-PC 是智谱对 AI 智能操作系统的一次进军尝试。它们的出现源于智谱在大说话模子、多模态模子、逻辑推理和器用使用等方面的时刻积聚。
从 2023 年 4 月的 AgentBench 开动,到 8 月的 CogAgent 模子,智谱针对 AutoGLM,和 GLM-PC 的模子 CogAgent 的研发责任进行了一年半的时期。
与 OpenAI 有所不同,智谱界说了大模子发展的五个阶段:L1 说话才智、L2 逻辑才智(多模态才智)、L3 使用器用的才智、 L4 自我学习才智、 L5 洽商科学端正。
智谱界说的大模子发展五个阶段|图片源流:智谱
面前的 Agent 才智能够匡助用户流露广博利用,异日甚而有望流露通盘确立。
表面上,跟着 Agent 才智握续陶冶,它们将能够独霸越来越多的利用范例,适配种种化的操作系统,并推行日益复杂的自主操作。这被觉得是大模子通用操作系统 LLM-OS 的初步形态。
为此,智谱已在芯片、操作系统 OS 、模子侧和利用 app 侧,进行了一段时期的探索。
在末端层面,智谱照旧和手机厂商、PC 厂商兑现深度合作,在 AIPC、智能助手 Agent 等领域有诸多恶果。智谱也与高通、英特尔等芯片厂商伸开密切互助,齐集调教端侧大模子,以说明最新芯片的性能。
通过端侧芯片性能优化和端云一体架构,Agent 不仅在操作系统 OS 和利用 app 上兑现用户体验变革,还能将其推行到种种智能确立上,兑现基于大模子的互联互通。
这种彭胀,具体到当下的种种确立,从手机到电脑,再到汽车、眼镜、家居和种种 edge side 确立,表面上是莫得鸿沟适度的。
智谱 COO 张帆谈到,智能确立在大模子的加握下,将会茂盛出新的契机。
跟着端侧性能及算力握续陶冶、为 AI 原生确立适配的模子和端云同源的协同架构出现,Agent 不仅在操作系统 OS 和利用上兑现用户体验变革,还能将其推行到种种智能确立上,从手机到电脑,再到汽车、眼镜、家居和种种 edge side 确立,种种 AI 原生确立正在争相裸露。
跟着 Agent 时刻的发展,AI 与东谈主类的互动模式将不再局限于简便的对话,异日的机器将不仅能听懂东谈主类的教导,还能够主动念念考、决议并推行任务。
2025 年省略会成为 Agent 时刻爆发的关节年份王二小电影,Agent 将进一步转换咱们与机器的联系,带来愈加智能化、个性化和高效的活命与责任方式。