1 / 22

智能体时代

AI 如何从 "会说话" 走向 "会做事"

分享人:申若冰

目录 Contents

一、大语言模型:思考任务的大脑

LLM:基于深度学习的概率模型,通过海量数据训练,学习语言的统计规律,从而预测和生成文本。

AI社区布告板

国内外主流AI大模型一览

一、大语言模型:思考任务的大脑

背景:模型本身无记忆,每次推理相互独立,为了让模型具备"持续理解"能力并完成复杂的多步任务,必须引入记忆机制。

短期记忆

Session Memory

  • 依赖 Context Window
  • 滑动窗口
  • 摘要压缩
  • 重要信息回填

长期记忆

Persistent Memory

  • 向量数据库
  • 知识图谱

二、多模态能力:理解世界的感官

从语言到多模态:为了让模型从"只懂文本"进化为"感知真实世界",需要融合视觉、听觉等多维信息,实现对物理世界的全方位感知与更自然的交互。

类别 应用场景 相关产品
ASR(语音转文字) 会议纪要自动生成;客服质检 科大讯飞听见;飞书妙记
TTS(文字转语音) AI 播客生成;数字人配音 讯飞配音;火山引擎语音合成
文生图 海报设计;社媒内容生产 Nano Banana;Midjourney
文生视频 广告创意生成;短视频内容 Sora;即梦
VLM(视觉语言模型) 表格/图表理解;UI 自动操作 Gemini 多模态
VLA (视觉-语言-行动) 具身智能 宇树科技;Google DeepMind

三、function calling和MCP:使用工具的手脚

大模型进化

Function Calling

允许大模型(LLM)通过调用外部函数与真实世界交互。

MCP 协议

Model Context Protocol,定义应用程序和 AI 模型之间交换上下文信息的方式。

三、Agent Skills:能力单元

把完成某类任务所需的知识、流程、工具调用和规则,打包成可复用、可调用的标准化能力单元,智能体可以动态发现和加载它们来增强特定任务的执行能力。

frontend-slides

可用于制作炫酷、带丰富动画效果的 HTML 演示文稿,支持从零创建,也可直接由 PPT 文件转换生成。

marketing skills

19 项 AI 营销相关实用技能,分战略定位、内容生成、社媒研究、转化销售及生产力运营五大类,能让 AI agent落地营销全流程工作并提升效率。

Excel数据

四、AI智能体:自主行动的员工

智能体自主性

"Agent是具备目标导向、能自主规划、调用工具、自我反思并完成复杂任务的智能系统,且自主性是一个连续光谱而非二元判断。"

—— Google Brain联合创始人 吴恩达

四、个人实践

提效工具

  • 播客生成:notebooklm/豆包
  • 知识学习:点点/ChatGPT闪卡
  • 面试总结:飞书妙记
  • 定时任务:元宝AI资讯
  • 日常提问:豆包悬浮球

Vibe Coding

Deep Research

四、个人实践

ta说 - 个人实践分享

四、Claude Code 黑客松获奖作品

🥈 第二名:Elisa
开发者:Jon McBee(软件工程师)

痛点:传统编程教育强求语法学习,扼杀孩子创造力

方案:积木式界面+AI代码转换,让孩子跳过语法直达创意实现

🏆 第一名:CrossBeam
开发者:Michael T. Brown(加州执业律师)

痛点:加州政府审批人员面对海量建筑图纸,手工标注修正通知效率极低

方案:多Agent系统自动解析图纸与通知,实现审批流程10倍速提升

🥉 第三名:postvisit.ai
开发者:Michał Nedoszytko(比利时介入心脏病学医生)

痛点:门诊信息过载,患者离院后健康管理断层

方案:AI整合诊疗记录生成个性化指导,延伸医疗服务至日常生活

✨ "Built with Opus 4.6" Claude Code 黑客松获奖作品

四、Claude Code 黑客松获奖作品

创意探索奖:Conductr
开发者:Asep Bagja P.(音乐家)

痛点:独立音乐人缺乏实时创作伙伴,即兴火花难现

方案:实时人机协作工具,当演奏乐器时,Claude 能即时生成整个乐队进行伴奏

"持续思考"奖:TARA
开发者:Kyeyune Kazibwe(乌干达道路基础设施工程师)

痛点:发展中国家缺乏专业基建评估,决策盲区多

方案:行车记录仪视频AI解析,自动生成经济可行性报告

核心启示:

  • AI将"解决方案构建"民主化
  • 未来属于"问题发现者+AI工具使用者"

"Built with Opus 4.6" Claude Code 黑客松获奖作品

四、企业实践:AI Native 产品

通用型 Agent

Manus;Lovale

Coding Agent

Coze;Trae;Cursor;Claude Code;Codex

社交

Elys;Second Me;Lessie

个人助手

OpenClaw

设计 Agent

Lovart

知识管理

IMA;NotebookLM

AI 浏览器

Tabbit

四、企业实践:AI 赋能业务

森马:94个"数字员工",干了545个人的活

400+ 自动化工作流

电商运营

各购物平台活动报名、促销设置

智能报表

数据统计类报表(日报、周报等)

直播创作

直播间数字人直播、直播搭建

店铺装修

购物平台店铺装修、商品陈列

社媒运营

社媒平台账号运营(视频笔记发布)

售后支持

各平台售后、物流跟踪

五、未来展望:智能时代的发展思考

AI时代我们还需要学习吗?

问题发现能力

AI并不具备自主提出问题的能力,只有深耕领域实践,才能发现真正有价值的问题

认知决定价值

AI输出的价值直接取决于自身认知的深浅

批判性思维

AI回答看似权威,实则可能存在"幻觉"、信息过时或片面,学习使我们具备批判性思维

李想观点

五、未来展望:智能时代的发展思考

AI当前会取代大批人吗?

  • 幻觉问题、无法承担责任、且缺乏物理交互与自主行动能力,使得AI在当前无法全面取代人类,但将迅速替代大量标准化、低创造性的初级知识工作
  • AI什么时候会换被罩?—— 具身智能发展卡点
  • 机器人所需的"视觉+触觉+力觉+运动轨迹"多模态时序数据稀缺
  • 仿真环境与现实物理世界存在差距,模型缺乏物理常识和推理能力
人类技能AI替代率

五、未来展望:智能时代的发展思考

当真正实现AGI时,我们可以做什么?

🎉

谢谢!

Thank You

Context Window

模型单次推理能处理的文本长度上限,通过将所有历史对话拼接在提示词中,让模型"看到"最近的对话