智能体时代

AI 如何从 "会说话" 走向 "会做事"

分享人：申若冰

目录 Contents

01 大语言模型：思考任务的大脑
02 多模态能力：理解世界的感官
03 function calling和MCP：使用工具的手脚
04 AI智能体：自主行动的员工
05 未来展望：智能时代的发展思考

一、大语言模型：思考任务的大脑

LLM：基于深度学习的概率模型，通过海量数据训练，学习语言的统计规律，从而预测和生成文本。

国内外主流AI大模型一览

一、大语言模型：思考任务的大脑

背景：模型本身无记忆，每次推理相互独立，为了让模型具备"持续理解"能力并完成复杂的多步任务，必须引入记忆机制。

短期记忆

Session Memory

依赖 Context Window
滑动窗口
摘要压缩
重要信息回填

长期记忆

Persistent Memory

向量数据库
知识图谱

二、多模态能力：理解世界的感官

从语言到多模态：为了让模型从"只懂文本"进化为"感知真实世界"，需要融合视觉、听觉等多维信息，实现对物理世界的全方位感知与更自然的交互。

类别	应用场景	相关产品
ASR（语音转文字）	会议纪要自动生成；客服质检	科大讯飞听见；飞书妙记
TTS（文字转语音）	AI 播客生成；数字人配音	讯飞配音；火山引擎语音合成
文生图	海报设计；社媒内容生产	Nano Banana；Midjourney
文生视频	广告创意生成；短视频内容	Sora；即梦
VLM（视觉语言模型）	表格/图表理解；UI 自动操作	Gemini 多模态
VLA (视觉-语言-行动)	具身智能	宇树科技；Google DeepMind

三、function calling和MCP：使用工具的手脚

Function Calling

允许大模型（LLM）通过调用外部函数与真实世界交互。

MCP 协议

Model Context Protocol，定义应用程序和 AI 模型之间交换上下文信息的方式。

三、Agent Skills：能力单元

把完成某类任务所需的知识、流程、工具调用和规则，打包成可复用、可调用的标准化能力单元，智能体可以动态发现和加载它们来增强特定任务的执行能力。

frontend-slides

可用于制作炫酷、带丰富动画效果的 HTML 演示文稿，支持从零创建，也可直接由 PPT 文件转换生成。

→

marketing skills

19 项 AI 营销相关实用技能，分战略定位、内容生成、社媒研究、转化销售及生产力运营五大类，能让 AI agent落地营销全流程工作并提升效率。

→

四、AI智能体：自主行动的员工

"Agent是具备目标导向、能自主规划、调用工具、自我反思并完成复杂任务的智能系统，且自主性是一个连续光谱而非二元判断。"

—— Google Brain联合创始人吴恩达

四、个人实践

提效工具

播客生成：notebooklm/豆包
知识学习：点点/ChatGPT闪卡
面试总结：飞书妙记
定时任务：元宝AI资讯
日常提问：豆包悬浮球

Vibe Coding

ta说
简历智能分析
JD汇总展示
Workflow搭建

Deep Research

四、个人实践

ta说 - 个人实践分享

四、Claude Code 黑客松获奖作品

🥈 第二名：Elisa

开发者：Jon McBee（软件工程师）

痛点：传统编程教育强求语法学习，扼杀孩子创造力

方案：积木式界面+AI代码转换，让孩子跳过语法直达创意实现

🏆 第一名：CrossBeam

开发者：Michael T. Brown（加州执业律师）

痛点：加州政府审批人员面对海量建筑图纸，手工标注修正通知效率极低

方案：多Agent系统自动解析图纸与通知，实现审批流程10倍速提升

🥉 第三名：postvisit.ai

开发者：Michał Nedoszytko（比利时介入心脏病学医生）

痛点：门诊信息过载，患者离院后健康管理断层

方案：AI整合诊疗记录生成个性化指导，延伸医疗服务至日常生活

✨ "Built with Opus 4.6" Claude Code 黑客松获奖作品

四、Claude Code 黑客松获奖作品

创意探索奖：Conductr

开发者：Asep Bagja P.（音乐家）

痛点：独立音乐人缺乏实时创作伙伴，即兴火花难现

方案：实时人机协作工具，当演奏乐器时，Claude 能即时生成整个乐队进行伴奏

"持续思考"奖：TARA

开发者：Kyeyune Kazibwe（乌干达道路基础设施工程师）

痛点：发展中国家缺乏专业基建评估，决策盲区多

方案：行车记录仪视频AI解析，自动生成经济可行性报告

核心启示：

AI将"解决方案构建"民主化
未来属于"问题发现者+AI工具使用者"

"Built with Opus 4.6" Claude Code 黑客松获奖作品

四、企业实践：AI Native 产品

通用型 Agent

Manus；Lovale

Coding Agent

Coze；Trae；Cursor；Claude Code；Codex

社交

Elys；Second Me；Lessie

个人助手

OpenClaw

设计 Agent

Lovart

知识管理

IMA；NotebookLM

AI 浏览器

Tabbit

四、企业实践：AI 赋能业务

森马：94个"数字员工"，干了545个人的活

400+ 自动化工作流

电商运营

各购物平台活动报名、促销设置

智能报表

数据统计类报表（日报、周报等）

直播创作

直播间数字人直播、直播搭建

店铺装修

购物平台店铺装修、商品陈列

社媒运营

社媒平台账号运营（视频笔记发布）

售后支持

各平台售后、物流跟踪

五、未来展望：智能时代的发展思考

AI时代我们还需要学习吗？

问题发现能力

AI并不具备自主提出问题的能力，只有深耕领域实践，才能发现真正有价值的问题

认知决定价值

AI输出的价值直接取决于自身认知的深浅

批判性思维

AI回答看似权威，实则可能存在"幻觉"、信息过时或片面，学习使我们具备批判性思维

五、未来展望：智能时代的发展思考

AI当前会取代大批人吗？

幻觉问题、无法承担责任、且缺乏物理交互与自主行动能力，使得AI在当前无法全面取代人类，但将迅速替代大量标准化、低创造性的初级知识工作
AI什么时候会换被罩？—— 具身智能发展卡点
机器人所需的"视觉+触觉+力觉+运动轨迹"多模态时序数据稀缺
仿真环境与现实物理世界存在差距，模型缺乏物理常识和推理能力

五、未来展望：智能时代的发展思考

当真正实现AGI时，我们可以做什么？

毛泽东

让AI为人民服务，把人从琐碎中解放出来，去干更伟大的事——但永远别忘了，决定世界的是人，不是机器

王阳明

AI尽其才，人致其良知，各安其位，各尽其性

懒羊羊

AGI搞定一切，我只负责舒服躺平、快乐过日子

荣格

当AGI替我们完成外在的创造与劳作，人类真正的使命，便是借由这面心灵之镜，完成对自身灵魂的觉察、整合与觉醒。

孙悟空

任AGI神通再大，俺老孙只管逍遥自在，活个无拘无束！

梵高

AI可以创造千万件作品，却无法拥有一颗为美与痛苦而燃烧的心，我将更炽热地去感受、去爱、去把生命活成最热烈的画。

海绵宝宝

哇！AI都会叠被子啦～那我就有更多时间去抓水母、做蟹黄堡、和派大星一起冒险，把每一天都过得开开心心、泡泡满天飞！

周星驰

其实，我是一个'人'……如果AGI真的做到了，麻烦告诉它，人生里的酸甜苦辣，比它数据库里的0和1，刺激多了。

华佗

此物若能洞悉五脏六腑之玄机，晓畅草木金石之性情，实乃天下苍生之福，胜过我十年游学。

钱学森

AGI的出现，不是一项单纯的技术突破，而是关乎整个社会结构、生产关系的系统性变革，我们要从顶层设计上，早做规划。

爱因斯坦

AGI的诞生，是宇宙通过我们创造的又一面镜子，让我们得以窥见智慧的另一种可能。但愿创造它的我们，拥有与之匹配的慈悲。

海绵宝宝

哇！AI都会叠被子啦～那我就有更多时间去抓水母、做蟹黄堡、和派大星一起冒险，把每一天都过得开开心心、泡泡满天飞！

毛泽东

让AI为人民服务，把人从琐碎中解放出来，去干更伟大的事——但永远别忘了，决定世界的是人，不是机器

王阳明

AI尽其才，人致其良知，各安其位，各尽其性

懒羊羊

AGI搞定一切，我只负责舒服躺平、快乐过日子

荣格

当AGI替我们完成外在的创造与劳作，人类真正的使命，便是借由这面心灵之镜，完成对自身灵魂的觉察、整合与觉醒。

孙悟空

任AGI神通再大，俺老孙只管逍遥自在，活个无拘无束！

梵高

AI可以创造千万件作品，却无法拥有一颗为美与痛苦而燃烧的心，我将更炽热地去感受、去爱、去把生命活成最热烈的画。

海绵宝宝

哇！AI都会叠被子啦～那我就有更多时间去抓水母、做蟹黄堡、和派大星一起冒险，把每一天都过得开开心心、泡泡满天飞！

周星驰

其实，我是一个'人'……如果AGI真的做到了，麻烦告诉它，人生里的酸甜苦辣，比它数据库里的0和1，刺激多了。

华佗

此物若能洞悉五脏六腑之玄机，晓畅草木金石之性情，实乃天下苍生之福，胜过我十年游学。

钱学森

AGI的出现，不是一项单纯的技术突破，而是关乎整个社会结构、生产关系的系统性变革，我们要从顶层设计上，早做规划。

爱因斯坦

AGI的诞生，是宇宙通过我们创造的又一面镜子，让我们得以窥见智慧的另一种可能。但愿创造它的我们，拥有与之匹配的慈悲。

海绵宝宝

哇！AI都会叠被子啦～那我就有更多时间去抓水母、做蟹黄堡、和派大星一起冒险，把每一天都过得开开心心、泡泡满天飞！

🎉

谢谢！

Thank You

智能体时代

目录 Contents

一、大语言模型：思考任务的大脑

一、大语言模型：思考任务的大脑

短期记忆

长期记忆

二、多模态能力：理解世界的感官

三、function calling和MCP：使用工具的手脚

Function Calling

MCP 协议

三、Agent Skills：能力单元

frontend-slides

marketing skills

四、AI智能体：自主行动的员工

四、个人实践

提效工具

Vibe Coding

Deep Research

四、个人实践

四、Claude Code 黑客松获奖作品

四、Claude Code 黑客松获奖作品

四、企业实践：AI Native 产品

通用型 Agent

Coding Agent

社交

个人助手

设计 Agent

知识管理

AI 浏览器

四、企业实践：AI 赋能业务

电商运营

智能报表

直播创作

店铺装修

社媒运营

售后支持

五、未来展望：智能时代的发展思考

问题发现能力

认知决定价值

批判性思维

五、未来展望：智能时代的发展思考

五、未来展望：智能时代的发展思考

毛泽东

王阳明

懒羊羊

荣格

孙悟空

梵高

海绵宝宝

周星驰

华佗

钱学森

爱因斯坦

海绵宝宝

毛泽东

王阳明

懒羊羊

荣格

孙悟空

梵高

海绵宝宝

周星驰

华佗

钱学森

爱因斯坦

海绵宝宝

谢谢！

Context Window