Agent 智能体 应用
Agent项目:
2024年阿里全球数学竞赛AI赛道全球第2
- 代码仓库:Math-Multi-Agent
- 特工宇宙 GitHub 组织:[Agent-Universe](https://github.com/Agent-Universe)
【2024-1-25】这几天agent操控设备成为热点:
- 智谱昨天推出 glm-pc 1.1,注重长程推理,与年前的autoglm互补,分别占据pc和mobile设备
- openai 的 operator 也涉足pc操控
大家都在布局3级别agi
2025 是智能体之年
Agent 效果
榜单
【2025-3-26】俄亥俄州立大学、加州伯克利推出 Web助理效果评测 An Illusion of Progress? Assessing the Current State of Web Agents
数据集
GAIA
【2023-11-23】 FAIR, Meta, HuggingFace, AutoGPT, GenAI 联合推出评测集
- 466 个问题及作答, 覆盖生活中实际问题,涉及 推理、多模态操控、网页浏览、写代码、通用工具使用
- 其中 300 个问题开源出来, 不含答案,用来维护 排名榜 Leader Board
- 问题难度: 人类简单(92%),但模型难(含插件的 GPT-4 15%)
资源
问题分级
- 一级问题: 不需要工具,或最用1种工具,且步骤不超过 5 步。
- 二级问题: 涉及更多步骤,大致在 5-10 步,并且需要综合运用不同工具。
- 三级问题: 近乎完美的通用助手, 执行任意长系列行动,任意数量工具,总体上通用水平
示例
Question
: What was the actual enrollment count of the clinical trial on H. pylori in acne vulgaris patients from Jan-May 2018 as listed on the NIH website?Ground truth
: 90
Agent 项目实例
【2024-9-15】一个包含15种大模型Agent技巧的项目开源
从简单到高级,15 个 step-by-step notebook
(1) 初级 Agent
- 简单对话Agent: simple_conversational_agent.ipynb
- 简单问答Agent:simple_question_answering_agent.ipynb
- 简单数据分析Agent:simple_data_analysis_agent_notebook.ipynb
- 客户支持Agent(LangGraph):customer_support_agent_langgraph.ipynb
- 论文评分Agent(LangGraph):essay_grading_system_langgraph.ipynb
- 旅行计划Agent(LangGraph):simple_travel_planner_langgraph.ipynb
- GIF 动画生成器Agent(LangGraph):gif_animation_generator_langgraph.ipynb
- TTS 诗歌生成器Agent(LangGraph):tts_poem_generator_agent_langgraph.ipynb
- 音乐合成器Agent (LangGraph):music_compositor_agent_langgraph.ipynb
(2) 高级Agent架构
- 记忆增强对话Agent:memory_enhanced_conversational_agent.ipynb
- 多智能体协作系统:multi_agent_collaboration_system.ipynb
- 自我提升Agent:self_improving_agent.ipynb
- 任务驱动的Agent:task_oriented_agent.ipynb
- Internet 搜索和总结Agent:search_the_internet_and_summarize.ipynb
(3) 复杂系统
- 用于复杂 RAG 任务🤖的复杂可控Agent:Controllable-RAG-Agent
数据库
genai-toolbox
【2025-7-13】谷歌开源为Agent设计的数据库工具箱 genai-toolbox
真正为 LLM 设计的数据工具中间层,帮大语言模型(LLM)或 Agent 快速、安全、标准化地调用数据库或 HTTP 接口等外部工具
- 支持 MCP 协议,兼容 LangChain、LlamaIndex、多语言 SDK,特别适合做 AI Agent、数据库助手、数据中台等场景。
核心设计:
- Go语言开发,工具和数据源完全解耦,采用注册表和插件机制,通过 init 注册 kind,实现声明式扩展,无需改核心代码。
- 参数系统支持默认值、类型校验、模板注入,还能从 JWT 自动注入字段,实现了安全性和灵活性的平衡。
- 双协议设计也很有参考价值,既支持传统 REST,也支持面向 LLM 的 MCP 接口,调用流程标准化,支持 tool 列表发现、schema 推理、参数验证等。
- 整个系统从 prebuilt YAML 配置到运行时动态加载,再到 OpenTelemetry 级别的日志与追踪,具备了生产级能力。
- 适合 AI 工程师、数据平台开发者、Agent 系统开发者研究。Go 工程师也可以借此学习如何设计一套模块清晰、热插拔、面向未来的 AI 中间件系统。
操作系统
【2024-12-2】Android团队“再创业” !Agent操作系统方向
很多公司都在研究AI智能体框架中的不同组件、不同功能模块,但是/dev/agents相对就更勇敢一下,/dev/agents坚持提出一个完整的第三方操作系统才能是释放其全部潜力的关键
技术理念是:
- 充分释放人工智能代理的潜力,必须构建一个全新的操作系统。
- 打造一个跨设备的云端操作系统,通过整合生成式AI技术,为开发者提供一个标准化的开发框架,并为最终用户创造一个智能化的交互界面。
- 这一平台有望成为AI时代的基础设施,正如Android在移动互联网时代的角色一样。
知识问答
法律问答
【2024-8-15】我的Agent拿了全国第十一
基于智谱 GLM-4 大模型和相关业务API构建能回答法律问题的Agent,为法律人士提供专业的辅助咨询服务。
法律问题或简或繁
- 简单问题: 只是查阅单表和数个字段:
- “广东鹏鼎律师事务所的电话邮箱地址分别是什么?”
- 复杂问题: 涉及跨多表查询、逻辑判断以及统计等操作
- “(2020)吉0184民初5156号的被告是否为上市公司,如果是的话,他的股票代码和上市日期分别是?如果不是的话,统一社会信用代码是?该公司是否被限制高消费?如果是被限制高消费的涉案金额总额为?请保留一位小数点。”
经验
- 第一,API编排 vs Code/SQL生成。
- 相较于Code/SQL的生成能力,企业客户会更看重Agent的API编排能力。在具备API资产的情况下,企业内和企业间的交流会更多地通过API,而非直写Code/SQL实现。
- Agent 要能够编排并依次调用:裁判文书信息、上市公司信息、企业工商注册信息和企业限高消费信息的API以回答较为复杂的问题。
- 第二,对Agent的要求是“又快又准”。
- 比赛的盲盒测试要求Agent在1小时内回答200道问题,对Agent运算速度和精度都有较高要求。而这也与企业的实际场景契合,毕竟企业内绝大多数的信息检索场景相对简单(单表或有限多表/视图,有限的逻辑处理和统计需求),但对响应的速度和精度有近乎苛刻的要求。
- 第三,Plan ↑ Reflection↓。
- 对速度和精度的高要求:Agent能够在Plan阶段“一次搞定”,而非通过Reflection反复修正。
- 为此,排除了 Multi-Agents 架构,而着重于保证Plan的准确性,并确保一旦Plan正确,Action必然正确:
- 两个环节:
- Orchestration(编排),依据知识图谱,将自然语言问题编排为大模型友好的“指令序列”;
- Question Rewrite(问题改写),“抹平”问题的缺陷,并依据知识图谱发现隐藏的实体关系。
- 最终,所有正确回答的问题中,Agent的首轮正确率超过了90%。
- 第四,
自然语言
->API
,NO!自然语言
->指令
->API
,YES!- 自然语言的复杂度和多样性降低了大模型 Function Calling 精度,Agent需要将自然语言“格式化”为指令以提升API调用的准确性。
- 例如,大模型可以将问题“广东鹏鼎律师事务所的电话邮箱地址分别是什么?”先转化为指令,再进行API调用:
- 相较于直接调用API,指令更具额外优势:
- API命名不可控,而指令命名可以富含语义,有利于大模型进行问题分解;
- 简洁指令消耗更少Token,从而降低了大模型幻觉的几率,并且提升了Agent的响应速度;
- 指令和API的1:1对应关系能够确保“Plan正确,则Action正确”。
- 第五,自然语言问题是一个指令序列。
- 自然语言问题可以被大模型转化为一系列指令,即指令序列。如果用函数
F(X)->Y
代表指令,比赛中的问题则可以被描述为一个指令序列 - 用不同类型的指令构成指令序列,指令间可以通过内存进行沟通。通过不断增加指令类型,Agent可以应对更复杂的问题。
- 指令集合: 查询、统计、比较、存在、格式化、for循环、api调用计数
- 自然语言问题可以被大模型转化为一系列指令,即指令序列。如果用函数
- 第六,大模型善于指令编排,前提是约束以
知识图谱
和Few-Shots
。- Plan 核心是编排指令,生成指令序列以回答问题。
- 比赛中,即便仅仅使用提示词工程,只要辅以正确的知识图谱和Few-Shots,大模型善于将问题编排为指令序列
知识图谱
主要约束大模型的生成路径,而Few-Shots
则提供了生成样式。同时,Agent利用 embedding search 针对不同类型问题动态加载Few-Shots,在节省Token的同时增加了指令序列生成的精度。鉴于指令和API的一一应对关系,指令的编排等同于API的编排。
- 第七,必要的问题改写。
- 指令序列的生成和问题的问法息息相关,而Agent经常面临的挑战在于,问题未必会提到答案中所需的内容。
- 这种情况下,Agent需要改写问题以“填坑”。类似于指令序列的生成,我们可以同样使用知识图谱和Few-Shots指导问题的改写。
- 而问题改写的另一好处: 能仰仗大模型“抹平”问题中的错误,例如,问题改写就修正了公司和字段名称重复的错误
- 第八,
<SOS>
/<EOS>
提升 Few-Shots 遵从性。- 使用Few-Shots 产生指令序列的挑战之一就是大模型的“不遵从”,包括:
- 格式上的不遵从,例如符号的错用;
- 内容上的不遵从,例如在指令序列之外增加无谓的解释和啰嗦的内容。
- 通过提示词要求大模型严格遵从输出要求,但更好的办法是使用
<SOS>
/<EOS>
包裹Few-Shots以提升遵从性 - 因为大模型在训练之初就使用
<SOS>
/<EOS>
标记训练数据的起终点,使用该标记后,99.99%的情况下,大模型能够遵从要求生成指令序列。
- 使用Few-Shots 产生指令序列的挑战之一就是大模型的“不遵从”,包括:
电商问答
【2025-5-18】智能闲鱼客服机器人系统:
- 专为
闲鱼
平台打造的AI值守解决方案 - 实现闲鱼平台 7×24 小时自动化值守,支持多专家协同决策、智能议价和上下文感知对话。
- XianyuAutoAgent
复杂任务
尽管 LLMs 在单一任务上表现出色,面对复杂、多步骤的项目处理时,仍存在显著缺陷。
- 以数据分析项目为例,涉及需求理解、数据清洗和预处理、探索性数据分析、特征工程和建模等多个环节。每个步骤都需要专业知识和细致的规划,通常需要多次迭代,门槛非常高。
AutoKaggle
【2024-11-25】大幅降低数据科学门槛!豆包大模型团队开源 AutoKaggle,端到端解决数据处理
详见站内专题:数据竞赛之智能体
阿里官方开源了一个AI Agent框架,10.2k star | Qwen-Agent |
娱乐
MusicAgent
【2023-10-20】MusicAgent:基于大语言模型的音乐理解和生成AI agent
- MusicAgent: An AI Agent for Music Understanding and Generation with Large Language Models
- github muzic
MusicAgent 系统整合了众多与音乐相关的工具,并拥有一个自动工作流程来满足用户需求。
- 构建了一个从各种来源收集工具的工具集,如 Hugging Face、GitHub和Web API等,并由大型语言模型(如ChatGPT)支持的自动工作流程来组织这些工具。
- 目标: 让用户从AI音乐工具的复杂性中解脱出来,专注于创意部分。
这个系统为用户提供了轻松组合工具的自由,无缝且丰富的音乐体验。
角色模拟
详见 用户模拟器专题
AI助理
【2023-10-19】不再只是聊天机器人!AutoGen + LangChain = 超级AI助理
- AutoGen 代理可以根据特定需求定制,参与对话,并无缝集成人类参与。适应不同的操作模式,包括LLM的利用、人类输入和各种工具。
- AutoGen 没有原生支持连接到各种外部数据源,而LangChain正好发挥作用。两者结合,正是基于OpenAI的函数调用特性。利用 function call,AutoGen Agents能够调用LangChain的接口与组件。
构建AI助理,帮助用户完成知识问答任务
- 使用白皮书构建一个向量存储。
- 基于向量存储,通过LangChain创建会话型基于检索的问答链。
- 定义名为 answer_uniswap_question 的函数,接受一个参数question,并调用问答链来回答问题。
- 使用AutoGen设置用户代理和助手代理,并启用函数调用。
Bland AI
详见站内专题: 大模型时代智能客服
CogAgent
【2023-12-15】CogAgent:带 Agent 能力的视觉模型,免费商用
- 10月11日,我们发布了智谱AI新一代多模态大模型 CogVLM,该模型在不牺牲任何 NLP 任务性能的情况下,实现视觉语言特征的深度融合,其中 CogVLM-17B 在 14 个多模态数据集上取得最好或者第二名的成绩。
- 12月15日,我们再次升级。基于 CogVLM,提出了视觉 GUI Agent,并研发了多模态大模型CogAgent。
其中,视觉 GUI Agent 能够使用视觉模态(而非文本)对 GUI 界面进行更全面直接的感知, 从而做出规划和决策。
而多模态模型 CogAgent,可接受1120×1120的高分辨率图像输入,具备视觉问答、视觉定位(Grounding)、GUI Agent等多种能力,在9个经典的图像理解榜单上(含VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE等)取得了通用能力第一的成绩,并在涵盖电脑、手机的GUI Agent数据集上(含Mind2Web,AITW等),大幅超过基于LLM的Agent,取得第一。 为了更好地促进多模态大模型、Agent社区的发展,我们已将CogAgent-18B开源至GitHub仓库(申请可免费商用),并提供了网页版Demo。
模型:
- Huggingface: cogagent-chat-hf
- 魔搭社区: cogagent-chat
Eko
【2025-1-22】截胡OpenAI!清华复旦等抢先开源智能体框架Eko,一句话打造「虚拟员工」
清华、复旦和斯坦福的研究者联合提出了名为Eko
的 Agent开发框架,开发者可以通过简洁的代码和自然语言,快速构建可用于生产的「虚拟员工」。AI智能体能够接管用户的电脑和浏览器,代替人类完成各种任务,为工作流程提供自动化支持。
- Github eko
- 优于 Langchain、Broweruser、Dify.ai、Coze和Midscene.js
Eko 是一个强大的Agent开发框架,开发者能用自然语言和简单代码快速构建「虚拟员工」,完成从简单指令到复杂工作流的任务,如股票分析、自动化测试等;通过混合智能体表示、跨平台架构和生产级干预机制等创新技术,实现高效、灵活且安全的自动化工作流程。
核心创新点:
- 混合智能体表示:提出了Mixed Agentic representation,通过无缝结合表达高层次设计的自然语言(Natural Language)与开发者低层次实现的程序语言(Programming Language)。
- 跨平台Agent框架:提出环境感知架构,实现同一套框架和编程语言,同时支持浏览器使用、电脑使用、作为浏览器插件使用。
- 生产级干预机制:现有Agent框架普遍强调自治性(Autonomous),即无需人类干预,而Eko框架提供了显性的生产级干预机制,确保智能体工作流可以随时被中断和调整,从而保障人类对生产级智能体工作流的有效监管和治理。
Eko的跨平台开发是通过其环境感知架构(Environment-Aware Architecture)实现的,架构由三个关键层次构成:通用核心(Universal Core)、环境特定工具(Environment-Specific Tools)和环境桥接(Environment Bridge)。
通用核心:这一层提供了与环境无关的基本功能,如工作流管理、工具注册管理、LLM(大语言模型)集成和钩子系统。 环境特定工具:每种环境(如浏览器扩展、Web环境、Node.js环境)都提供了优化的工具集。 环境桥接:这一层负责环境的检测、工具注册、资源管理和安全控制,确保不同平台之间能够顺利互动和通信。 安全性和访问控制:Eko针对不同环境实施了适当的安全措施。浏览器扩展和Web环境都采用了严格的权限控制和API密钥管理,而Node.js环境则允许更广泛的系统级访问,基于用户权限进行文件操作和命令执行,在需要时会在执行前请求用户确认。
自动工具注册:通过 loadTools() 等工具,Eko 自动注册适用于当前环境的工具,这使得开发者可以在多个环境中无缝地切换,并确保工具的正确加载。
层次化规划(Hierachical planning)
研究人员提出层次化感知框架,将任务的拆解分为两层,包括Planning layer 和 Execution layer。其中Planning layer负责将用户的需求(自然语言或代码语言表示)和现有工具集拆解成一个有领域特定语言(Domain-specific language)表示的任务图(Task graph)。
任务图是一个有向无环图,描述了子任务之间的依赖关系。该任务图由LLM一次性合成。在Execution layer中,根据每个任务调用LLM来合成具体的执行行为和工具调用。
多步合并优化:当Eko检测到两次执行都是对LLM的调用时,会触发框架的自动合并机制,将两次调用的system prompt自动整合,合并成一次调用。从而加快推理速度。
视觉-交互要素联合感知(Visual-Interactive Element Perception)
视觉-交互要素联合感知框架(VIEP)是一种先进的浏览器自动化解决方案,通过将视觉识别与元素上下文信息相结合,显著提升了在复杂网页环境中自动化任务的准确性和效率。该技术的核心在于提取网页中的交互元素和相关数据,优化了自动化过程,极大地提高了任务执行的成功率。
具体来说,首先VIEP通过识别网页上的关键交互元素——如按钮、输入框、链接等——来聚焦用户可能进行操作的核心区域。
接着,每个可交互的元素都被分配唯一的标识符,并通过彩色框标记,确保精确定位。随后,系统通过结合截图和伪HTML的方式构建元素信息,利用文本和视觉数据的结合,帮助自动化模型更好地识别和操作这些元素,尤其在复杂网页结构中尤为重要。
通用智能体
详见站内专题: 通用智能体
设备操控
详见站内专题: 设备操控
阅读 Readagent
阅读能力超强的Agent模型——Readagent
产品信息:
- Readagent是由Google开发的一款模仿人类阅读方式的阅读类型代理(Agent)模型。它通过学习人类阅读长文本时遗忘具体信息但保留要点信息的方式,来提高处理和理解长文本的效率。
产品功能:
- 在处理长文本时,Readagent会把文本中的主要信息转化为“要点记忆”进行存储,当需要回答具体细节问题时,Readagent会迅速定位到到相应的“要点”中寻找答案,从而出色地完成长文本的阅读理解任务。此外,Readagent还能帮用户在复杂的网站中找到需要的信息。
会话评估
详见 用户模拟器专题
智能教育
【2024-4-12】用大模型+Agent,把智慧教育翻新一遍
以正大模型Agent大多采用“群体作战”模式。在Agent社区中,不同角色的Agent可以主动与彼此交互、协同,帮人类用户完成任务。
助教Agent
能够实现一对一讲评,成为教师的得力助手;教案Agent
能够生成高质量精品教案;学伴Agent
是学生的学习伴侣,随时提供学习辅导,并为学生制定个性化教学方案。
举例
- 教师将某个学习任务输入助教Agent后
- 助教Agent能够主动将任务分发至各位同学的学伴Agent
- 学伴Agent会主动根据学生的学习习惯制定个性化学习计划,并主动跟踪学生的学习进度和质量,还能将情况即使反馈至助教Agent。
Agent社区形成后,接下来是解决Agent落地“最后一米”的问题——如何设计人与Agent的交互形式。
很多教育场景中,自然语言交互并非最佳方式。
- 老师制定教育计划或学生提交作业经常会涉及到四五千字的长文本,这么长的内容放在一个对话流中阅读,非常影响使用体验。
- 现实工作场景中,用户很多时候都需要一个能高效操作的工具,并不是每次人机交互都需要输入一段文字或说一段话
团队最终摸索出集两种交互方式优点于一体的产品形态——用“白板”代替简单的对话流,支持自然语言驱动的交互方式,并提供内容展示、阅览、回顾等功能,比传统软件交互更简单,但比对话交互更丰富,可深入学校各个业务场景。
游戏
详见站内专题: 大模型游戏应用
医疗
Agent Hospital
医院模拟器 Agent Hospital
【2024-5-5】清华 【LLM-agent】医院agent:具有可进化医疗agent的医院模拟器
基于大型语言模型(LLM)和agent技术构建医疗场景下的医院模拟体,命名为医院agent
(Agent Hospital)。
医院agent不仅包括两种角色(医疗专业人员和患者代理)和数十个特定agent,还涵盖了医院内的流程如分诊、登记、咨询、检查和治疗计划,以及医院外的阶段如疾病和康复。
医院agent中,论文提出了MedAgent-Zero
策略,用于医疗代理的发展,该策略不依赖参数和知识,允许通过模拟患者进行无限制的agent训练。该策略主要包括一个医疗记录库和经验库,使得agent能够像人类医生一样,从正确和失败的治疗中积累经验。
AgentClinic
【2024-5-22】斯坦福、约翰霍普金斯推出 AgentClinic
- AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments
- 代码 agentclinic
AgentClinic 将静态医疗 QA 问题转化为临床环境(医生、患者、医疗设备)中的代理,以便为医学语言模型提供更具临床相关性的挑战。
- 问题:现有评测标准基于静态QA,无法处理交互式决策问题(interactive decision-making)
- 方案:在临床模拟环境中操作智能体,实现多模态评估LLM
- AgentClinic: a multimodal benchmark to evaluate LLMs in their ability to operate as agents in simulated clinical environments.
- 医生通过对话和交互数据来评估病人病情
诊断和管理患者是一个复杂的、连续的决策过程,需要医生获取信息—例如要执行哪些测试—并采取行动。人工智能 (AI) 和大型语言模型 (LLMs) 的最新进展有望对临床护理产生深远影响。
然而,目前的评估方案过度依赖静态的医学问答基准,缺乏现实生活中临床工作所需的交互式决策。
AgentClinic:一个多模式基准,用于评估LLMs在模拟临床环境中作为代理运行的能力。
- 基准测试中,医生代理必须通过对话和主动数据收集来发现患者的诊断。
发布两个开放基准:多模态图像和对话环境 AgentClinic-NEJM 和纯对话环境。
- AgentClinic-MedQA: 代理以美国医学执照考试~(USMLE) 的案例为基础
- AgentClinic-NEJM: 代理以多模式新英格兰医学杂志 (NEJM) 的案例挑战为基础。
在患者和医生代理中嵌入认知和隐性偏见 (cognitive and implicit biases),以模拟有偏见的代理之间的真实互动。
引入偏倚会导致医生代理的诊断准确性大幅降低,以及患者代理的依从性、信心和后续咨询意愿降低。通过评估一套最先进的技术LLMs,一些在MedQA等基准测试中表现出色的模型在AgentClinic-MedQA中表现不佳。
- 在AgentClinic基准测试中,患者代理中使用的LLM药物是性能的重要因素。
- 有限的相互作用和过多的相互作用都会降低医生代理的诊断准确性。
MMedAgent
【2024-11-3】斯坦福&哈佛医学院 - MMedAgent,一个用于医疗领域的多模态医疗AI智能体
斯坦福+哈佛医学院推出 第一个专门为医学领域设计的智能体,名为多模态医学智能体 (MMedAgent
)。策划了一个由六种医疗工具组成的指令调整数据集,解决了五种模式的七项任务,使智能体能够为给定任务选择最合适的工具。
- 论文: MMedAgent:Learning to Use Medical Tools with Multi-modal Agent
- Github: MMedAgent
- 演示系统 - gradio demo
选择 LLaVA-Med 作为主干,旨在扩展其处理各种语言和多模态任务的能力,包括接地、分割、分类、MRG 和检索增强生成(RAG)。这些任务包括多种医学成像模式,例如 MRI、CT 和 X 射线,使 MMedAgent 能够支持临床实践中通常遇到的各种数据类型。
综合实验表明,与最先进的开源方法甚至闭源模型 GPT-4o 相比,MMedAgent 在各种医疗任务中实现了卓越的性能。此外,MMedAgent 在更新和集成新医疗工具方面表现出效率。
教育
TheoremExplainAgent
【2025-3-5】 加拿大滑铁卢大学用 Manim + Agent 制作5分钟以上的数学教学视频
- 并提出评测集 TheoremExplainBench, 覆盖 240 个理论知识点
- 主页 TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding
- 【2025-2-26】论文 TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding
o3-mini agent 成功率 93.8%, 总分 0.77
实现方法
- 两个 Agent: 规划 + 写代码
金融
金融交易智能体
详见站内 大模型与量化
出行
滴滴: AI小滴
【2025-6-10】滴滴推出 智能旅行规划助手 AI小滴, 企业级落地
携程
携程+腾讯云 推出旅行规划助手 DeepTrip
电商
CRMAgent
【2025-7-11】字节跳动:如何用多智能体提升电商CRM?
大多数电商商家在私域渠道(如IM、邮件)中进行客户关系管理
(CRM)时,缺乏高效、专业的消息模板创作能力,导致营销效果不理想。
Georgia Institute of Technology 和 字节跳动的研究团队提出了CRMAgent
系统,用多智能体大语言模型自动生成高质量CRM消息模板,帮助商家提升用户留存与转化。
CRMAgent
由四个分工明确的智能体组成:
ContentAgent
:分析同一受众群体下表现优劣的模板,总结成功要素。RetrievalAgent
:跨商家检索与当前活动受众、产品和优惠券类型相近的优质模板,作为参考。TemplateAgent
:结合诊断和优质范例,重新生成更具说服力的消息模板。EvaluateAgent
:对新旧模板在受众契合度和营销有效性上进行评分和偏好对比,实现自动化质量评估。
效果
用GPT-4o等模型在11大典型用户分群上进行了全面评测。新生成的模板在受众契合度和营销评分上分别提升了9.09%和38.44%,在盲测对比中有78.44%的概率被评为更优!尤其对“潜在新客户”和“放弃购物车用户”,通过增加紧迫感和明确利益点,极大提升了转化可能。更厉害的是,生成的内容在语义和风格上与原文高度一致,既有创新又不跑题。
创新
CRMAgent 不仅分工细致,支持多种数据场景,还通过“组内学习+检索迁移+规则兜底”三重策略,让每个商家都能低成本获得像头部商家一样专业的推送消息,极大降低了营销门槛。该系统为大模型在实际商业场景落地提供了范例,也展现了多智能体协作的巨大潜力。
作者信息:Yinzhu Quan(Georgia Institute of Technology)、Xinrui Li(ByteDance Inc.)等人