AIGC-IT极限技术分享汇-第6页

大厂做AI，卷到哪儿了？

2024-10-18aigc阅读(47)

距离ChatGPT的诞生过去了近两年，期待中的AIGC时代不仅没能爆发，似乎还有了降温的趋势。

近期AI圈被热议的事件之一便是，有AI初创公司传出“不再大力度投入大模型，转做赚钱的AI应用产品”的消息。

目前大家对AI的探索大概分为三大类：一是做通用类基础大模型，二是做行业大模型，三是基于前两类大模型开发原生AI应用。前两类属于基础设施，后一类为大家看得见、摸得着的产品。例如，百度的AI产品文小言（原文心一言），是基于文心大模型提供AI能力；字节的豆包，是基于豆包大模型提供服务。

大厂基本都做了通用类大模型，并基于此开发AI原生应用，同时还将大模型开放，为客户提供API接口和服务。这就像是开了一座商场（平台），把场地、水电、设备等基础设施建设好，让商家（开发者、企业）进来开店，对商家提供服务并收费，同时，自己也开店赚钱。

今年，关于国内外大模型卷不动了的声音越来越大，甚至有国外公司被曝出正大幅缩减员工。在这样的背景下，技术储备充足、财力雄厚的大厂，在AI上的动作一定程度上代表着风向标。

我们综合AI圈资深从业者的真实感受和各大AI榜单上靠前的产品，选择了五家国内大厂，分别是百度、字节、阿里、腾讯、快手，试图通过它们近两年在AI上的布局，回答以下问题：五家大厂推出了哪些代表性AI产品？它们各自的AI的策略是什么？未来，爆款AI应用产品是否能出现？

一、大厂卷AI，哪些产品跑出来了？

去年，大模型还是一片热土，凡是有实力的公司都不愿错过，百度、字节、阿里、腾讯都发布了基础大模型，分别是文心通用大模型、豆包大模型、通义通用大模型、混元大语言模型，快手则推出了视频类的可灵视频生成大模型。此外，百度、字节、阿里还布局了垂类的行业大模型，基本都和自身业务紧密结合。而它们在AI产品的开发上，类型更加广泛。

根据公开信息，我们梳理出了近两年来，五家大厂各自具备代表性的toB、toC类AI应用产品。

百度是国内对AI热情度最高的大厂之一。百度董事长兼CEO李彦宏多次强调AI应用的重要性，他曾公开表示，“没有（AI）应用，基础模型一文不值。”

百度比较受关注的AI产品集中在搜索和文字领域，其中文小言被C端用户提及最多，从月活数据来看，它在多家国内综合类AI应用榜单上能排到前三。

文小言虽然是一款全能型AI应用，但最大的特色在于搜索。百度也一直强调其定位为“新搜索”，它区别于在网页里检索关键词得到海量资料的搜索方式，用户可以通过和文小言聊天得到答案。

文小言还具备畅聊、写作、求职、娱乐、办公等各式各样的智能体（可以理解为智能助手）。以办公场景为例，用户打开文小言办公智能体后，里面被细分成了PPT制作、面试、简历、公文写作等各式各样的对话工具，只需点击，便可通过对话的方式进行模拟面试等操作。

此外，百度的AI应用还涉及文生图、数字人、智能客服等。

字节推出的AI应用产品种类较多，其中豆包App表现最突出。QuestMobile显示，截至7月，豆包在国内综合类AI应用月活规模中排第一。

功能覆盖广且使用效果不错，是很多用户喜欢豆包的原因。它既有图片生成、作文批改、工作总结写手等学习、办公场景，也有姓名打分、MBTI性格测试等趣味性内容。它还非常拟人，打开APP便有豆包虚拟人跟用户打招呼，同时支持一边文字输出，一边语音播放。

AI从业者李精进最喜欢豆包的AI生成音乐功能，认为其这一能力处于国内领先水平。

阿里的通义也是整合了生成文字、图片、视频等众多功能，属于大而全的AI集合体。

李精进觉得通义对社会热点的跟进很及时。比如让机器人打球、小猫跳舞等网络上大火的场景，在通义里都能发现。近期诺贝尔奖颁给AI相关领域得主的消息刚出，通义便上线了“一键制作你的专属诺贝尔肖像”功能。

腾讯推出的腾讯元宝主打的也是AI搜索、AI对话等场景，但相比娱乐性更强的豆包，其更重视在学习、办公、创作等方面为用户提效。

相比其他大厂，快手推出的AI产品相对较少，比较有代表性的是主打视频生成的可灵AI。

目前可灵AI在文生视频领域属于佼佼者，不少使用者都表示，可灵的文字理解力、生成秒数、视频清晰度等方面超过很多文生视频工具，甚至能达到商用水平。

“我接的企业宣传片、广告片，有时需要对局部画面精准控制，部分内容还要按照指定轨迹运动，用可灵的运动笔刷就能实现。”一位从业者表示。

整体来看，各家大厂的最受欢迎的产品仍然集中在AI助手类，但功能差异化不大，且都可以免费使用。其他类型的产品例如“妙鸭相机”曾火过一阵，还有一些在刚推出时曾引发用户体验尝鲜，但能保持月活持续增长的并不多。

二、有人严防死守，有人静待时机

仔细比较这五家大厂在AI上的布局，能看出它们各自的不同策略，综合多位业内人士的观点，我们进行了总结概括。

推出AI产品最多的，当数字节。

据不完全统计，近两年字节推出的AI产品涉及助手、社交、图像、视频、教育等多个领域。

有业内人士评价，字节用的是“人盯人防守”打法，只要是市场上具有一定知名度的AI产品，字节都不会错过。比如主打AI相机的星绘，对标的便是阿里系的妙鸭相机。

字节还在不断探索新场景，今年10月它又把注意力放到了硬件上，推出了AI耳机Ola Friend。

资深AI领域从业者连诗路分析，字节做AI的思路和它一贯做其他领域的思路一样，即多条线、多产品布局然后进行赛马。且相比其他大厂，字节做的toC类AI产品较多。

阿里在AI领域的一大动作是投资，近两年，它投资了智谱AI、零一万物、百川智能、MiniMax和月之暗面五家最有潜力的AI大模型初创公司。同时，它也有自研的通义大模型。

阿里的另一大思路是围绕自家生态做AI应用。

不止一位从业者表示，和其他四家大厂相比，阿里的AI产品和电商绑定得比较紧密，比如推出了Pic Copilot、堆友等AI产品图工具，都是为了辅助商家制作、提升电商营销效率。

在今年的云栖大会上，蚂蚁集团推出了支小宝（支付宝AI助手）、蚂小财（金融理财）和AI健康管家（医疗健康）三款AI产品，也都和自身业务强相关。

百度则是全力押注AI，重点发力B端。很多从业者认为它能否重返互联网第一梯队，AI将起到关键作用。

AI的重要性在财报中也体现了出来。今年Q2，百度智能云业务营收51亿元，同比增长14%，财报还重点提到了文心大模型的日均调用量超6亿次，半年来增长10倍。

据36kr报道，在最新的百度内部2024年第三季度总监会上，李彦宏表示会继续投入基础模型，并提及了搜索、数字人、智能体、大模型调用、萝卜快跑等业务。同时，他表示不会做Sora这类文生视频类应用，因为投入周期太长，10年、20年都可能拿不到业务收益。

相较之下，腾讯和快手淡定很多。

腾讯在大模型上的推出速度上便比其他大厂要晚，去年9月，其自研的混元大模型才正式上线。同时，腾讯也投资了智谱AI、MiniMax、深言科技等好几家AI大模型公司。

在AI产品端，腾讯主做各类数据库的B端应用，C端产品上除腾讯元宝还算被大众熟知外，其他声量不大。

但有从业者认为这是腾讯在憋大招。“现在AI还没有诞生新的应用场景，也没有产生一个超级大的应用主线，所以腾讯在等其他大厂寻找到更大的场景。”专门做AI产品数据研究的秦宇认为，几乎手握各种应用场景的腾讯，有着不着急抢AI的底气。

连诗路也觉得腾讯在等待一个时机，“一旦腾讯发现其他家找到了准确的AI产品方向，就可以快速操作，甚至将其超越。”

快手目前推出的AI应用产品较少，主要集中在垂直应用，比如文生图、文生视频、AI剪辑等音视频领域。

总结来看，百度、腾讯、阿里的B端AI产品发力较多，字节集中在C端，特别是社交娱乐。

从各家产品的使用反馈来看，和大厂基因相结合的AI产品，往往市场表现更好，比如百度的搜索助手文小言，快手的视频生成工具可灵AI都比较受欢迎，阿里的通义千问擅长电商优惠策略的设计、营销文案的撰写。

三、爆款AI应用产品，还在探索中

最近，AI圈不断传出有初创公司要放弃预训练模型（预训练即大模型基础数据训练）的消息。虽然有公司公开辟谣，但大家也意识到，大模型之战很难再卷下去，做AI应用或许是一条出路。

连诗路认为，目前大厂在AI上的整体策略是，在基础大模型上等一等，但不会放弃，更多发力AI应用。

这主要源于两方面。

一是国内基础大模型已经进入到相对稳定期。

AI从业者李思熠解释，去年大厂卷大模型是认为大模型有上升空间，各家也都是从0开始先搞基建，现在基建基本完成，其训练更多的是在调优。

大模型非常烧钱，红杉资本的数据显示，在2023年，AI行业仅在英伟达芯片上的成本就达到了500亿美元，但整体产生的收益只有30亿美元。

秦宇表示，对于大模型训练要到何种程度，到底还要花多少钱做预训练，各大厂也拿不准。

换句话说，此刻再卷大模型的性价比不高，各家目前在基础大模型上的技术上也很难再拉开太大差距。

连诗路从大模型底层架构、硬件、人才三方面分析，五家大厂的基础架构一样，算力层面都在1万张卡左右，可能阿里会相对多一点。至于人员构成，这几家的核心AI科学家团队没有太大变动。目前大厂间的主要区别是各自积累的训练数据。

另一方面，经历了去年的野蛮生长后，大家逐渐回归理性。

不止一位从业者表示，今年AI行业淘汰了很多凑热闹的人和资金，现在留在行业里的，多为真玩家，大家认可做大模型最终是为了做产品，因为产品才能解决企业和用户的根本问题。

但应用这条路也不好走。

首先是场景探索没有进一步突破，这可以从各类AI榜单中发现。

秦宇通过梳理AI榜单发现，目前AI产品的类型集中在搜索、角色扮演、聊天机器人上，没有太多新的使用场景。近两个月AI产品的月活靠前的还是豆包、文小言、Kimi这些老产品，很难看到新应用跑出来。

其次，AI产品的活跃度和营销投入关系很大。

秦宇透露，虽然近两个月榜单前几名的AI产品没有太大变化，但月活用户会出现波动，“谁当月投的广告多了，产品的月活就会提高，抖音是最大的广告投放渠道。”也有AI公司工作人员曾对媒体表示，自家产品的获客人数和广告投放联系很大，AI产品的获客和用户留存，主要靠营销。

不过，无论是大模型还是AI应用，无论难度如何，AI这块蛋糕，大厂都会想尽办法拿下。

“AI视频通话”产品化的三条路

2024-10-17aigc阅读(111)

“做AI产品经理太难了。”近期脑极体的同事参加了一场开发者大会，一位产品经理向我们坦言：“AI时代，做产品的方法论没变，但以往熟悉的东西几乎都被清零了。”

用户需求被清零了，大模型到底能用来做什么，用户自己是不清楚的，需求是空白的，需求调研、产品定义，就要花费好几个月的时间。

好不容易定义好了，基础模型的一个更新，就有可能将前期所做的工作、功能规划等推倒重来。

“比如GPT-4o出现之后，语音对话的能力是我们完全意想不到的，就又得把产品开发过程再来一遍……”

而纵观一年多来推陈出新的数百个大模型，GPT-4o可以说是产品化程度非常高的一个了。

比如OpenAI发布会上展示的“AI视频通话”，使用户与AI进行实时的、跟真人对话一样自然的视频交流。国内模型厂商也很快推出了类似的AI视频通话功能，不少媒体和用户都表示“体验炸裂”。

但半年时间过去，发现在最初的震惊与新鲜感过后，在真正的软件生态里，还是没有看到“AI视频通话”被大规模、高频率地用起来，更别提激活用户的付费欲望了。为什么会这样？

我们就从“AI视频通话”说开去，聊聊AI产品化、商业化到底要经过哪些磨砺。

AI视频通话，一座有待打磨的原矿

钻石原矿被开采出来，其实并不璀璨夺目，是经由工匠们的切割打磨，被镶嵌成钻石首饰，包装为“爱情象征”，才走进大众消费市场，价值实现了百倍千倍攀升。

类GPT-4o大模型就类似于原矿，作为“交互天花板”，潜在商业价值很大，但必须经过产品化的精细打磨与包装，才能被大众用户广泛接受，实现其真正的价值和应用潜力。

而基于类GPT-4o所诞生的“AI视频通话”，虽然向产品化迈进了一步，但依然属于原型的基础能力。

尽管OpenAI、智谱等模厂已经针对“AI视频通话”这一应用，打磨了诸如响应速度、具体用例等产品侧的细节，并融入到ChatGPT、智谱清言APP等产品当中。但作为一种软件应用来说，这种与通用场景相结合的落地模式，还是比较粗陋。

首先，需求过于宽泛。

AI视频通话，技术上相当于让AI拥有“眼睛”和“嘴”，具备察言观色、跟真人对话的能力。这很容易就让人想到AI陪伴，人与AI谈天说地、谈情说爱。

直接将AI视频通话能力嫁接在聊天机器人上，本质依然是AI聊天，能力升级，但无法解决chatbot商业价值低的核心问题。

AI视频聊天，用户容错率高，不在乎AI偶尔犯错或出现幻觉，这也意味着对基础模型能力要求不严苛，无法在技术层面拉开差距。曾经的智能音箱大战、智能助手红海，也会在AI视频聊天领域出现，并且由于聊天并不能帮助用户完成具体任务或解决问题，用户还得自己琢磨在视频里跟AI聊什么，没一会儿就只能跟AI面面相觑，难以带来确定性的产品满足和持久粘性，新鲜感过后就会流失。

而一些直接用途，想要普遍应用，也有大量细节仍待填充。

比如基于AI视频通话的无障碍功能，是一个非常直接的落地场景。AI视频通话，可以将设备摄像头作为“眼睛”，帮助人去理解物理世界，这对视障人群岂不是很友好？

但实际上，大模型APP的视频通话功能，是无法直接被视障人群用起来的，还有大量的产品细节需要考虑。比如我们曾体验过实时图像识别，AI只能认出“面前有两张卡”，但哪张是公交卡，哪张是银行卡，是无法准确识别的，这就需要基于视障群体出行接触的高频物体，进行针对性地精调。

而且，在飞机、高铁、地铁等弱网、无网环境下，也要保证视障人群与AI视频通话的实时性，就需要纯端侧运行的多模态大模型，将模型做小、计算效率做高。

产品设计层面，还有大量的细节，还等待着填充，才能转化为用户可以方便使用的产品和服务。

可以看到，没有更细致的产品化，尽管“AI视频通话”这一基础能力很厉害，却不知道能用来干什么，很可能导致技术找不到市场，倒在了产品化变现的黎明到来之前。

这个“至暗时刻”会发生吗？

欣慰的是，我们发现 “AI视频通话”能力，已经开始向行业输送了，意味着这座AI基础能力的“原矿”，终于开始被打磨成晶光四射的钻石。

我们就从“原矿”流向的应用领域，来分享几个“AI视频通话”的产品化方向。

方向一：+智能手机=拟人化生活管家

大模型怎么落地？智能体是方向。

智能体怎么服务？+AI视频通话事半功倍。

如今，手机软件承载着我们日常的绝大多数服务，在各个应用中来回跳转、操作是非常繁琐的。

今年以来，荣耀、vivo等厂商都在基于智能体打造一系列创新功能体验，比如“一句话点奶茶”“一句话订餐厅”等。用户只需要向手机助手发出指令，手机智能体会自动理解需求、拆解任务步骤、调取相关功能，一站到底地完成任务。

Agent手机就很好地解决了数字服务链路长、操作繁琐的问题，但新的问题又来了，那就是智能体还需要“看得懂”“能交流”。

举个例子，在外卖小程序下单时，遇到广告是常态，这时候需要智能体agent执行准确的操作，比如“点击关闭”“跳过”等，来推进到下一步。如果智能体无法识别相关内容，必须用户自己动手操作，那整个链路就被打断了，用户体验会非常不好。有跟智能助手通过文字prompt交流的功夫，用户自己就能点开程序完成下单了。

Agent手机+视频通话，就能用户体验更进一步。

比起打字的繁琐、语音尴尬症，在人机对话时，像跟真人面对面交流一样，通过语音对话完成下单，更符合直觉，也更有被服务的舒适感。对话之后，大模型对视频画面进行实时分析，指导智能体来自动执行，整个体验会从头到尾丝滑无感。

目前，国内终端厂商在端侧智能体方面走得是更快的。脑极体在VDC 2024大会上了解到，蓝河操作系统增添了视觉感知能力，让系统像人类一样“听得懂”“看得清”。智能体能够模拟人类的智能，助力操作系统像人一样进行沟通、执行智能任务。

如果说，智能体可以让人成为数字服务的最小参与者，那么在智能体手机中打磨的AI视频通话，则让人机交互朝着更理想、更符合直觉的体验靠近，让数字生活管家走进现实。

方向二：+垂直行业软件=虚拟行业专家

将AI视频通话功能集成到垂直应用软件中，可以变成拟人化的垂域专家，提供更专业的服务，解决更具体的问题，从而激活用户的付费意愿和模型API经济。

目前，OpenAI为GPT-4o预设了十几个场景，清言视频通话API上线智谱开放平台时，也列出了智能硬件（VR眼镜）、教育培训AI私教、文旅场景AI向导、具身智能等落地方向。通过将AI视频通话API开放出来，鼓励开发者在产品中集成“AI视频通话”功能。

9月24日，多邻国（Duolingo）在第六届全球分享大会上，推出了 AI 视频通话（Video Call）。Duolingo Max 用户可以与多邻国的角色 Lily（拽姐）进行视频通话，进行个性化的互动练习。在对话中，AI会根据用户的语言水平灵活调整内容。

学习语言最难的就是高频使用环境和开口说话的心理障碍，通过AI视频通话提供实时的对话机会，可以让小白初学者也能自信开口，进行有效联系。据说，多邻国的这一新功能接入了OpenAI的高级语音API功能。

国内头部社交软件Soul，也上线了AI聊天机器人“AI苟蛋”，可以主动跟用户找话题，并且年底将开启AI陪聊机器人的视频通话服务。不同于泛泛聊天，Soul主打的是灵魂交友，平台用户倾向于开展深层交流，探讨深度话题，寻求心灵共鸣。

在这种较为成熟的社区氛围下，用户在使用AI视频通话的预期、内容也是较为明确的，不会出现不知道聊什么的情况。

各行各业都存在大量需要互动的场景，可以跟“AI视频通话”相结合提供拟人化体验。但用户能否由此对应用和AI视频通话产生黏性，还需要行业伙伴把使用门槛降到最低，这不仅需要行业拥有产品开发的能力与意愿，能够洞察缺口与机遇，也需要模厂的生态支持。

方向三：+硬件=有温度的情感共同体

从哆啦A梦到阿童木、贾维斯、Her，这些让人类感觉友好温暖的AI，都是拟人化的。也许说明，我们更愿意跟更像人类的AI打交道，而不是冰冷无形的机器。

一位智能机器从业者告诉我们，一开始设计的新车只有虚拟的语音助手，用户上车之后觉得跟空气说话很尴尬，激活率不高，所以设计了一个带有屏幕的车载控件，可以跟车主打招呼、有表情，车主很喜欢跟它对话，逢年过节还会为它买各种装饰物，把它当作用车场景中的家庭一员。

从这个思路看，AI视频通话其实可以被加入各种硬件当中，与用户展开真人一般的对话，从而成为情感共同体，由此衍生的商业空间也非常充裕。

透过AI视频通话，相信大家能够感受到，无论是AI企业或普通大众，对于AI产品化的需求越来越实质。

模型技术只是能力，是原型，而远不到普遍可用的阶段。唯有通过产品化的细致打磨，AI这座商业富矿，才能真正显露出钻石般的光芒。

AI Agents与AI聊天机器人：功能、特性及差异深度解析

2024-10-16aigc阅读(57)

在日常生活中，人们与人工智能的互动日益频繁，且常常在不经意间发生。

根据 DigitalOcean 的 2023 年 Currents 研究报告显示，73% 的人在个人生活、工作或二者兼顾的情况下使用人工智能。

在线购物者可在聊天窗口中输入 “我需要跑马拉松的跑鞋”，进而从电子商务网站庞大的选项目录中获取建议。

在 SaaS 公司任职的业务分析师或许会要求智能工具分析第三季度的销售数据，并提出提升第四季度业绩的策略。

虽然二者均为人工智能和机器学习的应用实例，但它们属于不同的应用程序。

其一为人工智能聊天机器人，旨在模拟对话并提供特定的帮助或信息。其二是能够自主决策并在多个领域执行复杂任务的 AI Agents。

聊天机器人的历史可追溯至 20 世纪 60 年代的 ELIZA，其从简单的模式匹配逐步发展为如今更为复杂的自然语言处理器。

另一方面，AI Agents 是近年才出现的，它建立在过去十年机器学习、神经网络和通用人工智能研究的进步基础之上。

本文将对 AI Agents 和人工智能聊天机器人之间的区别进行分析，以帮助您确定哪种最适合您的业务。

01 AI 聊天机器人的定义

人工智能聊天机器人是一种软件应用程序，其旨在通过文本或语音交互的方式模拟人类对话。该应用程序运用自然语言处理（NLP）以及机器学习算法，以理解用户输入内容并生成恰当的响应。

聊天机器人通常依据一组特定规则进行编程，或者针对特定数据集进行训练，从而使其能够处理预定义任务或者在有限范围内回答问题。

尽管聊天机器人能够为常见问题或者简单任务提供快速且有效的帮助，但是它们通常缺乏理解训练范围之外的背景信息或者自行做出复杂决策的能力。

1. AI 聊天机器人用例

AI 聊天机器人通常被用于自动化客户互动以及简化业务流程。它们提供了一种具有成本效益的选择，可以处理大量重复性任务，同时提供全天候（24/7）的可用性。以下是一些潜在的 AI 聊天机器人用例：

客户服务常见问题解答。零售公司可能会实施 AI 聊天机器人，以回答有关退货、运输以及产品可用性的常见问题。聊天机器人将客户查询与预编程的响应进行匹配，为常见问题提供快速答案，并减少人工客户服务代表的工作量。
基本 IT 支持。组织可以使用 AI 聊天机器人作为员工 IT 问题的首个联系点。聊天机器人能够指导用户完成简单的故障排除步骤，以解决诸如密码重置或打印机连接问题等常见问题，并将更复杂的问题转交给 IT 部门。
餐厅预订。当地连锁餐厅可能会在其网站上部署 AI 聊天机器人来处理餐桌预订。聊天机器人会询问用户日期、时间和人数等基本信息，然后在连接的预订系统中检查可用性，以确认预订或建议其他时间。

2. 国内外 AI 聊天机器人示例

ChatGPT：由 OpenAI 开发，是最为知名的人工智能聊天机器人之一。它基于大型语言模型，能够理解和生成与用户需求相关的回答，无论是日常聊天、知识问答、文本创作，还是专业领域的问题探讨等都能应对。
Google Bard：谷歌推出的聊天机器人，依托谷歌强大的技术和数据资源，能够提供高质量的回答和建议。它可以与用户进行自然流畅的对话，帮助用户解决各种疑问，并且在不断学习和改进中。
文心一言：百度全新一代知识增强大语言模型，能够与人对话互动、回答问题、协助创作，帮助用户高效便捷地获取信息、知识和灵感。它具备知识增强、检索增强和对话增强的技术优势，能更加准确地理解用户意图，提供准确全面的信息服务。
通义千问：由阿里云推出的全能 AI 助手，能够深度理解人类语言的复杂性和多样性，可用于日常对话、知识问答、机器翻译、情感分析、代码生成、逻辑推理、文本创作等，能实现自然流畅的人机对话，提供高效便捷的交互体验。

02 AI Agents 的定义

AI Agents 是一种更为先进的人工智能系统，其能够在极少的人工指导下执行复杂任务并做出决策。它运用复杂的机器学习模型（通常涵盖深度学习和强化学习）来处理和分析源自不同渠道的数据。

AI Agents 能够理解上下文、从交互中学习并调整自身行为以达成特定目标。与简单的系统相异，AI Agents 可以处理模糊性问题、做出自主决策并执行多步骤计划以解决复杂难题，这使得它们适用于更具挑战性和开放性的任务情境。

1. AI Agents 用例

AI Agents 被用于执行更为复杂的任务，这些任务需要决策能力、情境理解能力以及从交互中学习的能力。在问题空间庞大且自主行动有所助益的场景中，它们极为有用。

以下是企业可能选择 AI Agents 的情况：

智能供应链管理。大型电子公司可以运用 AI Agents 来优化其供应链。该代理能够分析销售数据、库存水平、供应商绩效以及天气和经济指标等外部因素，从而预测需求、调整订单数量并实时重新安排货运路线。
自动化内容管理。数字媒体公司可能会构建一个 AI Agents，为其订阅者提供个性化内容推荐。代理将分析用户浏览历史、参与模式和热门话题，以不断更新每个用户的相关信息、视频和播客，进而提高用户留存率并增加用户在平台上停留的时间。
职业发展助理。专业社交网络可以引入 AI Agents，以帮助学生和年轻专业人士求职。该代理可以分析就业市场趋势、用户技能和职业目标，从而推荐量身定制的工作机会，对简历和求职信提供反馈，推荐与技能发展相关的课程，并提供个性化的面试准备技巧。

2. 国内外 AI Agents 示例

HostAI 是一款专门为度假租赁管理以及酒店运营所设计的人工智能代理。其能够自动执行多项任务，涵盖客人沟通、维护票务、进行日历管理以及实现收入优化。HostAI 宣称可以处理 80% 以上的客人沟通事宜，能够在数秒钟之内回复查询，甚至运用人工智能管理语音通话。

Sender 是一款专门针对区块链网络上的去中心化金融（DeFi）操作而设计的人工智能代理。其旨在将用户的意图转化为链上操作，自动执行跨不同协议和平台的复杂 DeFi 任务。Sender 与多种 DeFi 应用程序实现集成，其中包括去中心化交易所、借贷平台以及 NFT 市场，为加密用户提供一个全面的生态系统。

实在智能 – 实在 Agent：基于 AI+RPA 技术，融合 TARS 大模型，允许用户通过文字或语音传达指令，模拟人类操作和决策流程。对于个人，可替代手工作业，提升工作效率；对于企业，可无缝接入不同业务系统，创建个性化应用，适用于零售、通信、银行、制造业等多个行业。

钉钉 – 魔法棒套件：集成在钉钉平台的智能工具集合，包括聊天 AI、文档 AI、会议 AI 等多种功能。用户可以一站式唤起多种技能，辅助生成文案、方案、图片、PPT、脑图等，还能在聊天、文档、知识库等场景中进行智能问答，在数据处理方面可以汇总分析数据、生成图表等。

03 AI 聊天机器人与 AI Agents 的差异

人工智能聊天机器人与 AI Agents 皆运用人工智能技术，为个人及企业提供助力。从根本而言，二者旨在理解人们的言语或输入内容，并依据输入做出回应或采取行动。它们犹如数字助理一般，时刻准备为人们提供服务，无论是解答问题、处理难题，还是完成任务。

人工智能聊天机器人与 AI Agents 常常被人们混淆，原因在于二者均基于人工智能，且都能够通过自然语言与用户进行交互。它们之间的界限或许较为模糊，尤其是随着聊天机器人日益复杂，代理的对话能力不断增强。尽管它们在能力和设计目的方面存在差异，但许多人仍会对这两个术语进行混用。

1. 交互复杂性

人工智能聊天机器人通常处理预定义范围内的简单文本对话。其擅长回答常见问题、引导用户完成简单流程以及提供结构化知识库中的信息。

大多数聊天机器人采用模式匹配或基本的自然语言处理方式，以解释用户输入内容，并从一组预编程选项中选取正确的回应。

另一方面，AI Agents 能够进行更为复杂、多步骤的交互，这些交互可能跨越不同的平台或服务。它们可以理解细微的指令，将复杂的任务分解为较小的步骤并予以执行。

高级 AI Agents 运用复杂的自然语言理解、上下文感知以及决策算法，以处理模糊的请求，并根据实时反馈和不断变化的条件调整自身方法。

2. 任务完成能力

人工智能聊天机器人专为特定、有限的任务而设计。它们在回答常见问题、引导用户完成预定义流程或处理简单交易方面表现出色。然而，当面临复杂或多步骤的任务（或任何超出其狭窄编程范围的任务）时，其能力便会受到限制。

AI Agents 将任务完成能力提升至全新的高度。这些数字工作者能够处理跨各种平台和服务的复杂、多阶段流程。

若需规划行程，AI Agents 可以研究目的地、比较机票价格、预订酒店，甚至推荐活动 —— 仅需一个指令即可完成。它们并非仅仅遵循脚本，而是能够实时解决问题，并在过程中适应新的信息。

3. 学习与适应

传统聊天机器人通常依赖于静态决策树或预定义的响应模式，这限制了它们学习和动态适应的能力。更为先进的实现方式可能会结合机器学习模型以改进响应选择，但这种学习通常局限于其特定领域。即使定期更新，聊天机器人通常也难以处理训练数据之外的新情况或查询。

相比之下，AI Agents 采用持续学习算法和自适应模型，这些算法和模型会随着每次交互而不断演变。这些系统能够根据以往的经验推断出应对不熟悉场景的方法，并根据用户反馈调整自身方法。通过运用强化学习和迁移学习等技术，代理可以扩展其在不同主题上的能力，变得更加灵活和高效。

4. 知识范围

大多数聊天机器人的实现都在一个有限的知识领域内运行，通常专注于特定的产品、服务或行业。它们的信息库通常是经过整理的，仅限于训练期间或通过定期更新提供的数据。

例如，汽车经销商的网站上可能会有一个聊天机器人，可以回答一系列关于其汽车品牌和型号的问题，包括规格、价格和可用性。虽然一些高级聊天机器人可以访问外部数据库或 API，但它们通常缺乏从多个来源综合信息或自主扩展知识的能力。

相比之下，AI Agents 通常拥有更广泛的知识范围。这些系统可以利用大量语言模型、实时数据流和多种外部资源来即时收集和处理信息。

代理可以跨领域推理、进行逻辑推理，甚至通过以新颖的方式组合现有信息来生成新知识。这种广泛的知识库使它们能够以更大的灵活性和深度处理更广泛的查询和任务。

04 AI 聊天机器人和 AI Agents 选择

尽管 AI Agents 提供了更为高级的功能且能够处理复杂任务，但它们并非在每种情况下都是最佳选择。

在人工智能聊天机器人与 AI Agents 之间进行抉择，应当基于对特定需求、资源以及目标的审慎评估。

以下为需要考虑的关键因素：

1. 预算限制

人工智能聊天机器人的实施与维护通常更具成本效益，因而对于资源有限的组织而言极为合适。若预算紧张，设计精良的聊天机器人依然能够提供巨大价值，而无需承担与更为复杂的 AI Agents 系统相关的更高成本。

2. 用例的复杂性

评估所需自动化任务的复杂程度。

对于简单、重复的交互（例如回答常见问题或引导用户完成简单流程），聊天机器人或许已然足够。然而，若用例涉及多步骤工作流程、跨不同领域的决策或与多个系统的集成，那么 AI Agents 则更为适宜。

3. 开发和维护资源

考虑团队的技术能力以及持续开发所需的时间。聊天机器人通常无需太多专业知识，且更容易进行更新。

AI Agents 虽功能更为强大，但通常需要在机器学习、自然语言处理以及系统集成等领域具备更高级的技能，同时需要持续进行监控和改进。

4. 可扩展性要求

评估未来的增长计划以及用户互动的潜在增长。聊天机器人能够有效地处理大量简单查询，但在面对复杂任务时，可扩展性可能会遭遇困难。为更具动态性的环境而设计的 AI Agents 通常能够提供更好的可扩展性，以满足多样化且不断变化的用户需求。

5. 数据隐私和安全问题

若用例涉及敏感信息或严格的法规遵从性，那么在聊天机器人与 AI Agents 之间进行选择可能会影响数据处理流程。聊天机器人的范围更为有限，可能更容易进行保护和审计。AI Agents 虽然可能更强大，但由于其能够更广泛地访问系统和数据，因此可能需要更强大的安全措施。

AI Agents 凭借其自动化复杂任务的能力，正稳步进入众多行业。这些系统通过处理数据分析、处理交易以及响应客户查询（这些工作以前需要大量人力才能完成），在从金融到客户服务等不同领域彰显了自身价值。

Chain of Thought：AI一思考，人类就……

2024-10-15aigc阅读(43)

01 引子：不算久远的AI往事

2023年底，Google大张旗鼓地发布了自己的多模态大模型Gemini，《Introducing Gemini: our largest and most capable AI model》。当时宣传之盛，大有要复刻Chatgpt横空出世时的风光。

但是，任凭谷歌如何大开香槟，业内并不买账，反而纷纷吐槽起谷歌竟也为了“优等生”的面子刷榜、水数据。刷榜迹象铁证如山，其中有一项尤为瞩目：在跟 GPT-4 对比推理能力的时候，谷歌“鸡贼”地给自己的模型用了叫做 Chain of Thought（链式思维）的提示策略，而用来作为对照组的GPT-4 呢，并没有。

这个提示策略能给大模型带来多大的差异呢？嗯，大约就是考试的时候一个人允许用草稿纸，另一个人只允许口算的差别。所以，当Gemini用了这样的开挂神器，要和“裸考”的Gpt-4比高下，自然会引来非议。

经此一役，Gemini有没有如愿被硬捧上宝座，不得而知。但CoT（链式思维）的江湖地位更为牢固了。几乎没有人能否认，它是提示工程中重要的策略之一，大模型们能不能跑出复杂的推理，生成符合逻辑的响应，端赖此君。

既然CoT如此重要，自然很值得一篇文章来好好讨论：

CoT到底是什么？它是如何产生的？
为什么大语言模型有它没它，会有如此大的差异？
在非技术领域，它有哪些应用？

02 诞生：进化而来的“思考力”

CoT全称是Chain of Thought，中文通常翻译为链式思维、思维链等。它是在提示词工程中被广泛使用的核心技术之一。它的中心思想就是当模型碰到复杂的推理问题的时候，要拆解成多个简单的子问题，并依次求解，形成一条完整的推理链条，再让大模型回答。

AI科学家之所以会提出这种“逐层拆解”的方式，还要从人工智能进化历史说起。

如果我们要给大语言模型“短暂又辉煌”的历史找一个关键的里程碑，那无疑是2017到2019年。那时候，Transformer模型的出现，为机器学习带来了新的方向。传统的全监督学习方法逐渐显得力不从心，研究者们开始探索以预训练模型为基础，辅以Fine-tuning的新方向。

但是，随着预训练模型的规模日益增大，Fine-tuning的成本也随之上升，而效果却不尽如人意。为了解决这个问题，提示工程应运而生。它通过提供任务指示和专家知识，使得AI的输入和输出更加符合训练时的数据模式。

到了2022年，LLM的提示效果有了显著提升，许多之前难以处理的任务，如对话和上下文理解，都取得了突破。然而，在复杂推理方面，大模型的表现仍有提升空间。如果让LLM处理算术推理、常识推理和符号推理，它给出的答案可能并不总是准确。

为了改善这一点，链式思维被提出。这种方法旨在帮助AI更好地处理复杂推理任务，提高其准确性和可靠性。这种逐步推理的方式不仅降低了问题的难度，还使得模型的推理过程更加透明和可解释。

我们用一个例子来说明CoT有多重要：

提问：这个餐厅原来有23个苹果。中午用掉了20个，然后又买进了6个。请问现在餐厅一共有多少个苹果。

这个在人类看起来平平无奇的计算题，在没有“链式思维（CoT）”的大模型时代，简直是黑暗降临。

因为没有链式思维的LLM会直接回答你：还有27个。

你甚至不知道它为什么会生成这么个离谱的答案。

好在我们有了CoT，它能要求模型逐步拆解这个问题：

这个餐厅最开始有23个苹果。
用掉了20个，所以是23-20=3。
又买了6个，所以是6+3 = 9。

所以，答案是9个。回答正确！

自此，大模型有了“思考之光”。此后技术界对于CoT，有了一系列的衍生研究，大致成果如下：

结合验证和细化：思维链推理过程中可能会出现误差，产生错误的推理步骤。为了减少这种现象，结合验证来获取反馈，并根据反馈改进推理过程。
问题分解：通过将多步骤推理问题分解成多个中间步骤，分配给更多的计算量，生成更多的token，再进行求解。
利用外部知识：结合外部知识对不确定的例子进行重新推理，减少分析中的事实错误。
投票排序：利用投票机制消除错误答案，然后对每个推理步骤进行独立的细粒度验证。
提高效率：通过优化模型结构和算法，减少不必要的计算量，提高推理的效率。
减少偏见：针对CoT可能产生的系统性偏见问题，引入了BCT无监督微调方案。这种方法可以训练模型在包含和不包含偏见特征的提示下给出一致的推理，减少偏见推理。
Let’s think step by step：引入了一种简单的提示方法，通过在问题的结尾附加“Let’s think step by step”等词语，使大语言模型能够生成一个回答问题的思维链。这种方法无需额外的训练数据，可以直接应用于各种推理任务。

这些增强的技术手段，让大模型的“链式思维”除了“在中间加步骤”的总原则，有了更多的推理保障，让整个推理过程更严谨，生成的结果质量也更好。

03 应用：充分开发CoT，为我所用

到这里，也许你会问：CoT的功效我知道了，但我并不是算法工程师，平时只是要应用提示词进行工作，了解CoT对我来说有什么用？

在我们的经验中，即便是在内容创作、产品设计或项目规划等领域，只需掌握一些基本的增强技巧，依然能充分利用大型语言模型的推理潜能，点亮它的“思考之光”。

我们总结了五种实用的场景：

1. Let’s think step by step

做法：在输入问题之后，加一句后缀：Let’s think step by step。

收益：这是最简单的“链式思维”的启动语。在问题后加入这句话，会要求LLM不要直接跳结论，而是以一种逐步推理的方式来处理问题。因此，在一些简单的需要分步骤思考的场景，它会促进LLM主动分步骤，提高它回答的靠谱程度。

2. 复杂决策/评估的报告产出

做法：在一些复杂的决策/评估报告的生成场景中，我们可以用后缀“请说明理由/请说出你的推理过程”来让LLM说明他的评估理由，让它提供的报告不仅仅只有结果，还会决策/评估过程，使结果更具参考性。比如：

当你提供一些人才绩效信息让它解读，并要求评估“我们如何确定销售团队中哪些成员是高潜力人才，哪些需要进一步培训，以及哪些可能考虑职位调整？请给出高潜力人才的评估，并说明理由”。
当你收到了多方面的调研反馈，要对调研信息的重要性做一个排序，你可以这样要求“请根据XXX的标准，对反馈信息做一个分类以及重要性排序，并说出你的推理过程。

收益：在做一些复杂决策或评估时，决策的理由其实比单一结果更重要。而加上这一个短短的后缀，不仅仅能让LLM的产出更准确，我们也能收获一份有着合理决策过程的产出。

3. 头脑风暴，创意产出更精准

做法：我们可以用CoT的方式，让大模型帮助我们进行头脑风暴，产出方案。

举例：假设你是一家广告公司的创意总监，你需要为一家新兴的环保型清洁用品公司设计一个广告活动。

输入：我们如何创造一个广告活动，以提高这家环保清洁用品公司的市场知名度，并吸引对环保有高度意识的消费者？”请用链式思维头脑风暴出至少五个方案。

大模型：链式思维头脑风暴方案

目标：为新兴的环保型清洁用品公司设计广告活动，提高市场知名度，吸引环保意识强的消费者。

方案一

目标受众分析：环保意识强的消费者通常关注可持续发展，喜欢在社交媒体上分享环保生活方式。

创意概念：##“绿色生活，从选择开始”##

执行策略：

制作一系列短视频，展示使用我们的产品如何减少对环境的影响。在Instagram和Facebook上发起#绿色生活挑战#，鼓励用户分享他们使用环保产品的照片和故事。

方案二

目标受众分析：环保消费者倾向于信任和支持那些公开透明、有社会责任感的品牌。

创意概念：##“透明化生产，清洁你我他”##

执行策略：

开发一个微型网站，详细展示我们产品的生产过程和环保实践。

邀请消费者参观工厂，让他们亲眼看到产品的环保生产流程。

方案三

目标受众分析：环保消费者更愿意为有故事、有情感的产品买单。

创意概念：##“每一滴，都承载着地球的未来”##

执行策略：

制作情感化的广告，讲述我们的产品如何帮助保护环境，比如减少水资源浪费。

与环保组织合作，通过公益活动提升品牌形象。

方案四

目标受众分析：年轻一代的环保消费者喜欢通过他们的消费行为来表达自己的身份和价值观。

创意概念：##“选择环保，选择潮流”##

执行策略：

设计一系列时尚、有趣的环保清洁用品包装，吸引年轻消费者的注意。

在大学校园和音乐节等年轻人聚集的地方进行产品展示和推广。

方案五

目标受众分析：环保消费者通常对产品的成分和来源非常关心。

创意概念：##“源自自然，馈于自然”##

执行策略：

制作一系列教育性的内容，如博客文章和视频，介绍我们产品中的天然成分及其对环境的积极影响。

在产品包装上增加二维码，消费者扫描后可以了解更多关于产品成分和环保故事的信息。

方案六

目标受众分析：环保消费者可能会对那些提供可持续生活方式解决方案的品牌感兴趣。

创意概念：##“全方位绿色生活”##

执行策略：

与生活方式博主和环保KOL合作，展示我们的产品是如何融入日常生活的。

开发一个绿色生活指南，提供使用我们产品的各种环保小贴士。

通过以上链式思维头脑风暴，我们得到了六个针对不同方面和策略的广告活动方案，每个方案都旨在提高新兴环保型清洁用品公司的市场知名度，并吸引目标消费者。

收益：如果我们少了“请用链式思维的方式”，只是简单要求大模型“请给我五个方案”，我们收获的只有五个方案的描述。但是由于多了链式思维的要求，大模型就会从受众、概念、策略等步骤逐一进行分解，给出更精准的答案。

4. 为思考流程进行“自定义”

做法：以上的3种做法，我们都只是给到了LLM“你要进行分步骤思考”的要求，但并没有定义具体的步骤。但事实上，如果你已有成熟的思考步骤，也可以要求LLM跟着你的要求走。

举例：你想创作一个时间旅行的故事，想让LLM帮着构思情节，但你有着严格的思考要求，并不想让大模型放飞自我。你可以这样写：

我是一个科幻小说家，我希望你能帮我构思一部时间旅行的作品。请根据CoT逐步思考以下问题：

1. 定义核心概念：时间旅行如何影响人物和事件？

2. 探索可能性：如果一个角色可以回到过去，他们可能会改变什么？

3. 构建情节：角色的行动如何引发一系列事件，导致意想不到的后果？

4. 深化主题：时间旅行的道德困境和哲学问题是什么？

产出：一篇完善的故事大纲，不得少于2000字

AI的回答：

故事大纲：《时间的织者》

1. 定义核心概念：时间旅行如何影响人物和事件？

核心概念：

时间旅行不是简单的历史重写，而是一系列复杂的因果链。每一次旅行都是对时间织物的编织，每一次改变都可能产生无法预料的连锁反应。

影响：

人物：时间旅行者会经历身份的转变，从历史的旁观者变为参与者，甚至可能成为历史的创造者。

事件：历史不再是固定的，而是流动的，每一次旅行都可能导致完全不同的历史走向。

2. 探索可能性：如果一个角色可以回到过去，他们可能会改变什么？

角色：艾丽森，一位物理学家，发现了时间旅行的秘密。

可能的改变：

个人层面：艾丽森试图修正自己过去的错误，比如挽救亲人的生命。

社会层面：她考虑改变历史上的重大事件，如阻止战争或灾难。

科学层面：她试图带回未来的科技，以加速当前社会的发展。

3. 构建情节：角色的行动如何引发一系列事件，导致意想不到的后果？

情节概述：

艾丽森首次尝试时间旅行，成功回到了十年前，试图阻止一场导致她弟弟死亡的车祸。然而，她的行动意外地改变了历史，导致了一个平行宇宙的出现，其中她的弟弟成为了一个科技巨头，但同时也引发了一场全球性的经济危机。

事件链：

初始行动：艾丽森回到过去，阻止了车祸。

第一次后果：弟弟幸存，成为科技巨头。

第二次后果：弟弟的公司开发了一种新的能源技术，导致全球能源市场崩溃。

第三次后果：经济危机引发社会动荡，艾丽森发现自己的世界变得陌生和危险。

4. 深化主题：时间旅行的道德困境和哲学问题是什么？

道德困境：

个人与集体：艾丽森的个人行动对整个社会产生了深远的影响，她是否应该为了个人的利益而改变历史？

预知与责任：如果知道未来会发生什么，是否有责任去改变它？

哲学问题：

自由意志与命运：时间旅行是否意味着命运是可塑的，还是说时间旅行本身就是命运的一部分？

历史的真实性：如果历史可以被改变，那么什么是真实的历史？

存在的意义：如果过去可以被重写，那么现在的存在是否还有意义？

故事大纲：

第一章：发现

艾丽森在实验室中偶然发现了时间旅行的可能性。

她对时间旅行的理论和实践进行了深入研究。

第二章：第一次旅行

艾丽森决定回到过去，阻止弟弟的死亡。

她成功改变了历史，但发现自己的世界开始变得陌生。

第三章：新世界

艾丽森探索新的历史线，发现弟弟成为了科技巨头。

她开始意识到自己的行动可能带来了更大的问题。

第四章：连锁反应

弟弟的公司引发了全球经济危机。

艾丽森试图找到解决问题的方法。

第五章：道德困境

艾丽森面临道德抉择：是否应该再次干预历史？

她开始思考时间旅行的道德和哲学意义。

第六章：时间的织者

艾丽森决定成为一个“时间的织者”，谨慎地修复时间织物的裂痕。

她学习如何平衡个人愿望和对历史的责任。

第七章：回归与接受

艾丽森最终接受了时间旅行的后果，决定活在当下。

她开始利用自己的知识帮助当前的世界，而不是试图改变过去。

第八章：新的开始

艾丽森关闭了时间旅行的实验，专注于当前的生活。

她成为了一个时间旅行理论的讲师，教导人们关于时间、历史和责任的重要性。

结语：

艾丽森的故事成为了一个警示，提醒人们珍惜现在，理解每一个选择的重要性。

时间旅行不再是一个逃避现实的手段，而是一个关于责任和接受的教训。

这个故事大纲提供了一个关于时间旅行的复杂叙事，探讨了个人选择如何影响整个宇宙的深刻主题。通过艾丽森的旅程，读者可以思考时间、历史和存在的意义。

收益：

无论是小说、演讲稿和方案，CoT方法通过逐步构建思维链条，每个步骤都建立在前一个步骤的基础上，使得整个故事或论述更加缜密、前后呼应。
而且有了中间步骤之后，如果需要微调其中的某一个步骤，只需要继续给出指令，修改局部即可。不会影响到整体的框架，调整的效率大为提高。

5. 多轮对话时，重新唤起记忆

做法：有时候我们在做复杂的设计/分析时，可能会涉及到多轮产出。此时，CoT也有用武之地。由于每轮的设计可能都会有较长的文本输入输出，如果上下文内容多了，LLM就和人类一样，对较早的内容就“淡忘”。所以，我们在多轮讨论中，要提醒它结合上下文思考。

举例：我们要通过LLM来设计一个虚拟的游戏角色，已经跟LLM进行多轮设计：角色的核心概念、背景、形象、技能。最后一步是要结合以上所有内容，来设计角色的人际关系，那么在输入设计要求之后，可以加入后缀：<请根据以下流程来工作>

思考角色的核心概念
思考角色的视觉形象
思考角色的能力与技能
思考人际关系的设计要求

收益：能确保LLM综合多轮大文本的理解和思考，再给出结论。

04 结语：人脑的特权 vs 智脑的“模仿”

认知心理学教授斯坦尼斯拉斯·迪昂（Stanislas Dehaene）曾这样描述过“人脑的特权”：缓慢地、理智地、符号化地运作，是人脑的特权。只有它可以在任何可能的时候，提取具有普遍性、逻辑性的、明确的原则。

人类的大脑思考非线性和多维的，思维可以快速跳跃，受到情感、直觉和过往经验的影响。这种思考的结果高度个性化，且思考路径也是独一无二的。它有时并没有路径和步骤可循，但依然能推演出一个优质的结果。

而大语言模型的CoT技术，则更像是对人脑的一种“仿作”。它严格遵循线性，通过一系列有序的步骤来处理信息，每一步都基于前一步的输出，以此来确保推理的连贯性和准确性。但是在面对复杂、未知的问题，它依然缺乏人类情感的深度和直觉的灵光一现。

这似乎让人们可以松一口气：至少在未来不短的时间内，人类依然能稳居于智能生物链的顶端。同样的，在面对未知与不确定的路上，我们也只能踽踽独行。

大佬点赞、大厂跟进！AI播客，正在引爆音频经济

2024-10-14aigc阅读(40)

AI这把火终于烧到了播客。

近期，谷歌开发的AI博客NotebookLM彻底火了。原因是，它能将用户提供的内容进行总结，并生成一段引人入胜的对话式播客，把信息娓娓道来。

国外AI大佬Andrej Karpathy更是称赞其“点亮了LLM的新交互范式”。如今，国内字节的豆包大模型也已跟进。

那么，NotebookLM究竟有哪些有趣的玩法？而当AI进入播客领域，又会对其产生怎样的影响呢？

01 解锁使用AI播客的三种姿势

从名称就可以看得出，NotebookLM的定位起初是一款AI云笔记软件。

它基于用户上传的文档内容（包括Google文档、幻灯片、PDF、文本文件、网页链接等），生成长文本摘要、多语言会话、提纲、常见问题解答、学习指南等内容。

到这里，NotebookLM和它的名字一样普通，和别的AI笔记没区别。

要说NotebookLM破圈，全靠生成语音功能，它把小作文变成了超逼真的电台聊天。

使用者尝试了各种玩法，他们把各种书籍、文章、其他播客转成AI短音频。

这才发现，NotebookLM在信息的组织、检索和验证方面做得很好，适合需要精确引用和深入研究特定资料的场景，如学习研究、法律分析、商业报告等。

找到了差异化的使用场景，NotebookLM火也是自然的。

做成一档绘声绘色的播客节目，NotebookLM离不开三个开源模型（Llama 3.1 405B、MeloTTS、Bark），是它们帮助NotebookLM完成从理解文本到生动言说内容的过程：

①长文本理解：Llama 3.1 405B擅长处理长文本，能够理解和生成高质量的文本内容。

②口语化人声：文本转语音工具MeloTTS，能将输入的文字转化为自然流畅、可定制的声音。

③音效：文转音频模型Bark，能生成包括音乐、背景噪音和简单的音效，还有高度逼真的非语言交流，如大笑、叹息和哭泣。

接下来介绍几个AI播客的用法，看看哪一个是你需要：

1、最强AI第二大脑，“信息快餐”开吃

用NotebookLM对论文、书籍、公知社交平台进行梳理总结，并生成逼真生动的人声娓娓道来，效果惊艳。

有人用“股神”段永平的社交主页投给AI，只花5分钟，就做了一档英文播客《段永平的故事》。

也有人对NotebookLM上传了几千条Flomo笔记，一期近20分钟的podcast，讨论了笔记里内容，还能给人以灵感启迪。

这可能是目前的“最强AI第二大脑”产品。

AI播客把原本结构化、线性表达的知识文本，降格成几分钟就能听完的“信息快餐”，就像是用了《三体》中的降维武器“二向箔”。

▲NotebookLM分析《老美都要在太空建数据中心了！成本大降95%，英伟达强力支持》（乌鸦智能说文章）

因为效果过于自然逼真，Andrej Karpathy也给出盛赞，称其“点亮了LLM的新交互范式”。

2、自我关怀，听老外轮番“彩虹屁”

“如果你感到有点沮丧，把你的社交动态粘贴到NotebookLM中，就能得到一通8分钟的‘真人’深度赞美。”

这是HuggingFace首席科学官分享了用NotebookLM进行自我关怀的方法。（之前我们也写过一个在自我关怀方向的AI产品，SocialAI）

把个人社交媒体上的动态/简历导出来，然后复制粘贴给NotebookLM，AI博客里的“人”会对使用者进行狂热的讨论，还甚至讨论起对方的优劣势，以及会不会录用对方的问题。

其实我们每个人最感兴趣的，是自己，所以延续自己的想法和兴趣的内容，充满乐趣和正反馈。

在这个创业机会上，国内已经有大厂出手了。豆包产品经理钟二信在即刻上透露，豆包很快也会上类似的功能。

3、自制英语播客，费曼学习法达成

当老外用AI总结播报论文、制作夸夸的时候，国内却开辟了AI播客的另一个场景——学英语。NotebookLM带动了AI双人英文播客的火爆，小红书上不少博主都在倾情推荐。

有人探索出了一套超棒的英语听力练习法，简直是费曼学习法+自制podcast，制作步骤也非常地简单：

①学习：听AI播客讨论（音频约7~18min），进入情景学习

②反馈：导入笔记，听AI播客来复盘，内容熟悉，不会走神

③调整：自己控制话题难度，再也不怕听不懂

这种学习方法可以让人沉浸地表达和思维。

AI播客里一男一女，美式英语纯正清晰轻松幽默，而不是枯燥的英文新闻单向输出。

场景诞生的原因是国人学英语的高需求。我国的英语市场常年火爆，根据数据显示，少儿英语培训市场在2018年就达到3160亿元，成人英语市场规模在2019年也达到了953亿元。

得益于此，中国是访问NotebookLM最多的国家，甚至超过了美国。

02 声音短视频化，知识内容生产及消费方式将被改变

一直以来，播客都是一个相对小众的需求。

这和其内容特点有很大关系。与短视频等内容不同，播客内容更侧重于知识输出，内容追求知识密度，因此播客的时长往往较长。

比如，国外头部播客的时长动辄三四个小时，而国内播客小宇宙上，大多数电台的节目时长也在一小时左右。

但这就带来了两个问题：

一方面，长时长内容，大幅提升了用户的消费门槛。

根据PodcastIndex的数据，当前还在活跃的播客有400万以上。而平均一个人收听播客的时长为6-7小时，这注定有海量的播客内容无法被广泛消费。

另一方面，这也不符合大众内容消费碎片化的趋势。

在TikTok上，电影解说账号的点赞量平均在3万左右，爆款可达到百万点赞。

解说型书单视频也大受欢迎，这种号的主要内容是“3分钟内解说一本书”。抖音上像是@不略这样的号，在只发布30+个作品时，就已经拥有180w万点赞了。

以上两点，使得播客的受众相对受限。

但NotebookLM的出现极有可能改变这一切。

有公式就是快！NotebookLM加快了内容的自动化生产，它将高密度文字内容转化为听觉材料。它还把优质内容变短了，“二创”的知识短音频更符合当下的消费习惯。

同时，AI特有的交互特点，也能实现AI播客的定制化，让知识更入耳入脑。

比如，将特定的阅读材料，用AI处理成更符合自己接收习惯的东西，可以是自己喜欢的声音，又或者双人畅言聊天。

当播客内容的供给被AI进一步放大，且形态更符合用户消费习惯，播客消费仍然很大的挖掘潜力，比如开车、通勤、入睡时，也就是长时间、无注意力（无法用手操作）的场景。

▲ 来源：即刻@Yangjixxxx

可以想象，随着AI技术的进步，将出现一个更加丰富和智能内容生态。而这或许是内容消费侧潜力最大的机会。

哪些AI产品，真的有人在用？

2024-10-11aigc阅读(46)

AI的风刮了两年，哪些产品胜出了？

两年前，ChatGPT爆火，掀起全球范围内的大模型开发热潮。国内大厂和创业公司纷纷入场，试图在AIGC时代占据一席之地。

如今，各家的产品都已铺开落地，和各行各业紧密结合。有数据显示，中国AI原生应用已经拥有了1.2亿月活跃用户。一大批已经习惯使用AI的人，率先享受到了技术红利。

我们好奇的是，AIGC的风刮了近两年后，到底哪些产品真正融入了用户日常？哪些是真需求，哪些是伪风口？

「定焦One」和多位用户交流后发现，在使用功能上，职场人士最常用AI查阅资料、编辑文档、翻译文本、公文写作、生成图片或视频；

在行业上，内容创作、智能客服、营销以及有标准化（SOP）作业程序的场景，运用AI较多；至于具体的产品，在C端，文小言（原文心一言）、Kimi等讨论度更高，在B端，豆包、通义等常被创业者们提及。

不过，尽管AI产品众多，但功能上创新不够，用户活跃度、留存和商业化仍面临瓶颈。AIGC号称是下一代移动互联网级别的创新，却一直未能爆发，业内人士认为，未来能否出现杀手级别的应用，将会是各家决出胜负的关键。

一、打工人的“救星”

企业职员璐璐平时主要做文稿编辑工作，她常用字节跳动的豆包和腾讯的元宝。最初使用大语言模型是为了完成工作中的一些形式主义的文件，她希望能提高效率，挤出更多时间去做更能提升自己能力的事情。

她发现，使用AI工具的效果很好，“有时候总觉得稿子里的某句话有语病，但我又拿不准，此时把这句话单独摘出来让AI帮忙校对和完善，比自己绞尽脑汁思考或者上网搜索别人的句子要高效得多。”

长期用下来，璐璐的感受是，文字方面，元宝要比豆包更接地气一点，人工智能感稍微弱点。但在作图方面，她更喜欢用豆包，可以有尺寸、风格的选择。

出版行业从业者张清常用AI产品做翻译、整理类工作，豆包、Kimi、通义等工具给她的工作带来的很大的方便。

她的整体感受是，这几个产品做翻译类、整理类、搜索类工作都比较智能。

以翻译为例，将外语译成中文时，中短篇幅的文章能做到准确、语言通顺，也符合中国人的表达方式，但如果是长篇文章，能感受到是机翻。在中译英的时候，语法很准确，但是一个明显的问题是，AI不懂文化。

张清介绍，比如，中国人在邮件中寻求合作后，会问对方“意下如何，我们可以详细聊聊吗？”这在中文语境没啥毛病，就是一种礼貌的问询，对方可以回复也可以不回复。

但是AI会翻译成“What’s your opinion? Can we have a detailed talk?”在英文邮件语境里就会有一种强迫回复的意思，在初期寻求合作会显得很不礼貌。

文化行业从业者张瑞提到的“救星”，则是文小言。

她的工作比较繁杂，除了本职业务之外，经常要写方案、活动总结、学习心得等。她苦恼的是，这类型“杂活”已经严重影响到了她的本职工作。

比如举行消防演习、交通安全讲座、体育节、艺术节、读书节等活动，她所在的机构要求他们活动前出策划方案，活动后出宣传文案，还要交学习心得，日常还要写工作故事、读书笔记等，忙的时候，她几乎每天都有要写的材料，苦不堪言。

她认为大模型最方便的地方在于，定了主题，系统会把该主题下有用的资料都整合好，附有出处，生产的内容也有一定的逻辑。如果是要求比较低的总结和汇报材料，可以直接用，即便是要求高一点的，在AI的基础上做一些修改，也比自己写省事多了，和网络资源的重合率也比较低。

在AI的辅助下，她经常不到半小时就能完成一篇文案。据她所知，年轻的同事们大多都用AI辅助工作，领导对此表示默许。

AI帮人提升了工作效率，但是这样的操作也有隐忧，璐璐最担心隐私泄露的问题。

她提到，为了让AI写出更符合要求的内容，有的时候需要告诉AI很多前提，比如自己的身份、要做什么事情……从旁观者视角看，循着和AI对话的轨迹，很容易勾勒出提问者的画像。“这是我比较担心的，毕竟我不想让同事和领导知道我用了AI完成某些工作。”

二、创业者的掘金工具

AI产品在C端帮打工人提升效率，在B端则为创业者带来真金白银。张格源是AI领域的创业者，他主做2B业务，为企业客户做AI数字营销和AI自动化解决方案。

据他介绍，AI数字营销的一项业务是数字人，“有几个客户在做创始人IP，我们通过数字人技术帮他生产大量内容；数字人还涉及到短剧出海，可以通过AI把短剧的声音、字幕、口型翻译成各种语言。”

AI数字营销的第二个业务是文生图。

他介绍，“我们所在的云南属于热门文旅目的地，年轻游客的很大一项需求是拍照打卡，我们通过AI写真能做出一些有意思的照片，AI写真也是我们客户可利用的营销工具。”

AI自动化解决方案是张格源为客户本地化部署的大模型一体机（硬件+大模型软件配套一体的设备），对客户来说，采购这样的一体机，数据资产在自己手里，信息安全有保障。在一体机上，大模型可以将原本的人工业务如公文写作、内容审核等自动完成。

张格源提到，开发这几项业务，用到的工具主要是字节跳动旗下的豆包大模型，以及一站式智能体开发平台Coze（扣子）。

具体来说，Coze有丰富的插件生态以及工作流生态，大量用户在上面开发了bot，“我们基于这些bot，开发了一些MVP（最小化可行产品）级别的产品，再在不同渠道分发，比如交付部署到我们客户的微信公众号、抖音上面去做服务。”

他提到，涉及视频内容时，运用到的AI能力有数字人、语音识别（ASR）、文本转语音（TTS）等。基于剪映、即梦等AI平台能力，可以实现文案生成、文生图、AI音乐、AI视频等内容。

另外，他们常用到的还有百度智能云，它可以根据文本内容，完成视频的自动剪辑画面、配音、字幕等，最终输出成品视频。

这些AI产品的使用，极大地降低了创业的技术门槛。在花费上，张格源透露，他们一年在火山引擎上支付token的费用大概是几万元。

不过，技术进步的另一面是，AI生成的内容也可能被人利用，做一些涉嫌犯罪的事。

前不久，“三只羊录音门”事件闹得沸沸扬扬，经相关部门调查后确认，网上流传的音视频为伪造，就是利用了AI声音克隆工具生成假音频，再用视频制作软件合成影像。而这一工具，原本是面向短视频制作者、景区导游解说、地铁语音播报等应用场景。

张格源提醒，AI生成的内容足以假乱真、瞒天过海，需要从业者们谨慎防范。

三、AI产品，困在哪儿？朝哪儿卷？

目前国内主要的AI应用，有百度（文小言）、字节跳动（豆包）、阿里（通义）、腾讯（元宝）等大厂的大模型产品，也有创业公司“AI六小龙”，业内公认的是月之暗面（Kimi)、零一万物（万知）、MiniMax（星野）、百川智能（百小应）、智谱AI（智谱清言）、阶跃星辰（跃问）六家。

「定焦One」和多位用户交流时，大家经常提到的产品包括豆包、文小言、Kimi等，结合近期“AI产品榜”发布的9月榜单，能更直观地看到哪些APP受到欢迎。

据“AI产品榜”统计，截至2024年9月，国内的AI应用已经有了1.2亿月活跃用户。其中，国内总榜月活（MAU）排名前五的应用分别是豆包、文小言、Kimi、天工AI、讯飞星火。

来源 / AI产品榜

在从业者眼中，市面上各家的AI产品表现各有千秋。

AI从业者致远分析，每款产品的优势都是背后的公司基因决定的，产品背靠的公司所能积累下来的数据，是AI能力的根本。

他解释，文小言依托百度的搜索资料库，在办公文档方面，比如整理资料、做汇报、写文案等工作，表现不错；

有阿里系庞大的电商客户的数据，通义千问更擅长电商优惠策略的设计、营销文案撰写，在电商策划运营方式、电商的SEO上辅助商家，另外，围绕电商体系，在生成图片、生成视频方面也更擅长；Kimi在C端用户使用体验上反响比较好，字节系的产品在B端更加丰富。

总结来看，目前应用AI比较多的行业，包括内容领域、智能客服、市场营销等。

另外，带有标准化SOP的一些场景，也会有大量的AI和自动化的能力加持。

张格源介绍，在农业领域AI也得到了应用，比如水果采摘以后，有企业做了智能检测的传送带，通过视觉AI去判断哪些水果是残次品，还有农业上的病虫害检测、鲜花的病虫害以及温湿度的监测都可以利用AI的能力。

10月份正好是高通骁龙旗舰芯片发布的时间，小米、vivo、OPPO、荣耀的旗舰手机也会随之发布，张格源预测，AI功能将会是手机厂商的重要抓手和卖点。

小米的人、车、家全生态可以基于小爱大模型实现智能化万物互联。OV等厂商也在手机端侧实现给用户的AI辅助功能，例如通话内容总结等。

接下来伴随着手机的AI能力，也许可以实现这样的场景：“我跟客户聊到要去深圳拜访，手机里就能生成明天要去深圳的待办事项，备注目标公司的地址，还可以调动OTA产品去找最合适的机票、酒店。”张格源认为，类似的AI能力，可能是下一步手机厂商的竞争方向。

资深AI领域从业者连诗路认为，大模型应用前景广阔，但企业在获客、留存、商业化，技术发展上面临诸多挑战。

他对比了豆包、Kimi、文小言、讯飞星火、腾讯元宝等产品的留存率后发现，用户下载之后的30日内，使用率大部分都低于1%。

而“AI产品榜”8月的数据显示，国内的AI应用，用户每个月平均只使用4.3天。连诗路认为，大语言模型有非常高的应用价值，只是目前的还没有做出杀手级的应用。

另外，今年以来，大模型企业因内卷而打起了价格战，商业化难题摆在了眼前。

最近几个月，字节、百度、阿里云、智谱AI等企业纷纷宣布降低大模型产品和服务的使用价格，不少大模型产品价格降幅达50%以上，有的产品价格降幅甚至超过90%。

连诗路估算，降价后1元钱大约可以买到200万字符，相当于5本《新华字典》的文字量。

有报道提到，今年5月以前，国内大模型推理算力毛利率高于60%，和国际同行基本一致，今年5月各大厂接连降价后，推测算力毛利率跌至负数。

关于“AI六小龙”，连诗路认为，它们受数据和算力限制，进一步拓展比较难。

不过，目前国内的AI发展产品增速和技术创新有减缓，但是产品形态和应用比较丰富和开放，AI的未来仍然可期。

他提到，AIGC上半场是算法工程人员引领团队做数据清洗、数据集、预训练、调优、做基础模型，下半场是要挖掘AIGC的应用场景。AIGC的杀手级应用不再局限于手机、智能家居、智能汽车某一类，而是可以和万物互联，他预测AIGC杀手级应用将在2026年前展现于市场。

*应受访者要求，文中璐璐、张清、张瑞、致远为化名。

独家信息：关于 o1 的 20 个真相

2024-10-09aigc阅读(54)

Q: o1 的训练方法与之前的模型有何主要区别？

A: o1 采用了大规模强化学习算法进行训练，这种方法教会模型如何高效地利用思维链进行生产性思考。与简单的提示不同，强化学习让模型学会了如何更有效地推理和解决问题。

Q: o1 的”思考”过程与简单的提示有何不同？

A: o1 的思考过程更长，质量更高，并且表现出了一些新兴行为：

错误纠正：能够识别并修正自己的错误
尝试多种策略：不局限于单一方法，会尝试不同的解决途径
问题分解：将复杂问题分解成更小、更易处理的子问题这些特性使 o1 的推理能力远超简单提示所能达到的水平。

Q: 为什么 o1 在推理任务上比之前的模型更强大？

A: o1 能够在回应用户之前产生一个很长的内部思维链。这允许它：

处理更复杂的问题
随着思考时间的增加而提高性能
进行更深入、更全面的分析
模拟人类的思考过程，包括探索、验证和修正

这种能力让 o1 可以处理之前模型难以应对的复杂推理任务。

Q: o1 如何处理安全性问题？

A: o1 使用推理能力来理解安全政策的细微差别：

不仅遵循政策的字面意思，还理解其精神实质
能够在复杂情况下做出更细致的判断
可以解释为什么某些内容可能不安全或不适当
在保持安全的同时，尽可能地提供有用信息这种方法使 o1 在处理敏感话题时更加灵活和智能。

Q: o1 在数学和编程任务上有哪些具体的改进？

A: o1 在这些领域取得了显著进步：

AIME（美国数学邀请赛）:准确率从 13%提升到 83%
Codeforces（编程竞赛平台）:从第 11 百分位提升到第 89 百分位
国际信息学奥林匹克竞赛（IOI）:达到参赛者中的第 49 百分位

在多个研究生水平的 STEM 测试中表现优异这些进步展示了 o1 在处理高难度数学和编程问题时的卓越能力。

Q: o1 Mini 与完整版 o1 模型相比如何？

A: o1 Mini 是一个更小、更快、更便宜的模型：

成本比 o1 Preview 低 80%
在 STEM 领域的任务上表现接近完整版 o1
专门针对复杂 STEM 推理任务进行了优化
在通用聊天机器人评估中排名第三，超过了许多其他模型

尽管规模较小，o1 Mini 在许多任务上仍能保持高水平的性能。

Q: o1 是否只擅长数学和 STEM 任务？

A: 不，o1 在多个领域都有显著改进：

法律：在 LSAT（法学院入学考试）上取得高分
通用查询：在通用聊天机器人评估中表现优异
创造性问题解决：能够处理开放性和创新性任务
AP 考试：在多个学科的高级课程考试中表现出色
捕获旗帜竞赛：展示了在复杂环境中的适应性和创新性这表明 o1 是一个全面的模型，不仅限于 STEM 领域。

Q: 给予 o1 更多时间如何增强其推理能力？

A: o1 利用额外时间的方式类似于人类：

探索更多选项：考虑多种可能的解决方案
验证想法：检查每个想法是否合理
尝试不同方法：如果一种方法不奏效，会转向其他方法
深入分析：对问题进行更深入的思考和分析
错误修正：识别并纠正早期的错误或误解
问题分解：将复杂问题分解为更容易管理的部分这种方法允许 o1 在复杂任务上随着思考时间的增加而提高性能。

Q: o1 如何决定在给定问题上花费多少时间进行推理？

A: 目前，这主要由模型自行决定，但未来可能会有改进：

用户可调参数：允许用户指定所需的思考时间
自适应决策：模型根据问题的难度自动决定所需时间
任务相关性：根据任务类型调整思考时间
实时反馈：根据初步结果动态调整思考时间研究人员正在探索如何优化这一过程，以在效率和性能之间取得平衡。

Q: 当前 o1 思考时间的瓶颈是否由上下文长度决定？

A: 思考时间的限制涉及多个因素，不仅仅是上下文长度：

训练效率：长时间推理的训练过程非常耗时
计算资源：延长思考时间需要更多的计算能力
内存限制：存储长链思维需要大量内存
算法优化：需要更高效的算法来处理长时间推理
实用性考虑：平衡推理时间和实际应用需求研究人员正在多个方面努力，以延长模型的有效思考时间。

Q: o1 在更抽象、创造性领域的表现如何？

A: 目前 o1 在创造性领域的表现不如 STEM 领域突出：

创意写作：能力有限，但正在改进
艺术创作：尚未达到专业水平
音乐创作：仍在探索阶段
抽象推理：在某些任务上表现良好，但仍有提升空间

改进这些领域的能力是未来开发的重点之一。研究人员正在探索如何将 o1 的强大推理能力应用于更具创造性的任务。

Q: o1 的改进是否仅仅由训练数据的变化导致的？

A: 不是，o1 的改进主要来自新的算法和训练方法：

强化学习算法：教会模型如何有效推理
思维链训练：优化长链思考过程
多步骤问题解决：提高处理复杂任务的能力
自我纠错机制：增强模型的自我改进能力
目标导向训练：针对特定任务进行优化虽然高质量数据仍然重要，但 o1 的核心优势来自其独特的训练方法和算法设计。

Q: 科学家如何帮助构建用于科学发现的 AGI？

A: 科学家可以通过多种方式贡献：

创建基准测试：开发评估 AI 在特定科学领域能力的标准
构建数据集：提供高质量、专业的科学数据集
工具可访问性：使科学工具和软件更易于 AI 使用
跨学科合作：促进 AI 研究者和各领域科学家的合作
定义挑战：提出 AI 需要解决的关键科学问题
验证方法：帮助开发验证 AI 科学发现的方法这种合作可以加速 AI 在科学研究中的应用和发展。

Q: o1 是否表现出意识或自我意识的特征？

A: 这些概念很难定义和测量，但研究人员认为：

AI 模型的内部工作原理比人脑更容易研究

需要开发新的方法来定义和测量 AI 中的意识

目前还没有确凿证据表明 o1 具有真正的意识

研究人员正在探索如何评估 AI 的自我意识

这个领域仍然存在很多哲学和科学争议未来几年可能会在理解 AI 模型的内部状态方面取得重大进展。

Q: o1 的推理时间和质量之间是否存在线性关系？

A: 关系不是完全线性的，更接近对数尺度：

初期：推理时间增加带来显著改善
中期：改善速度放缓，但仍有明显进步
后期：进步变得更加缓慢，但仍在持续
极限：存在理论上的性能上限

任务相关：不同任务的曲线可能有所不同具体关系可以在 OpenAI 的博客文章中找到详细图表。

Q: 在开发 o1 时，研究人员的第一个”啊哈时刻”是什么？

A: 没有单一的”啊哈时刻”，而是一系列渐进的改进：

模型性能的持续提升
观察到模型变得更加自信
模型开始进行额外的验证步骤
思维链与人类内心独白的相似性

模型展示出创新性问题解决能力这些进展让研究人员逐渐认识到 o1 的潜力和独特性。

Q: o1 如何处理工具使用以进行自我验证或理智检查？

A: 工具使用功能正在开发中：

代码解释器：允许模型运行和测试代码
网络浏览：使模型能够访问最新信息
自我验证：开发模型自我检查结果的能力
外部工具集成：计划与各种专业工具集成这些功能将显著增强 o1 的自我验证和问题解决能力。

Q: o1 如何处理更主观任务中的文化背景？

A: o1 通过以下方式将主观问题转化为更客观的问题：

定义成功标准：基于人类反应或认可
文化相关性分析：考虑不同文化背景的影响
多角度评估：从不同视角分析问题
历史背景考虑：将问题放在历史背景中评估
专家意见模拟：模拟相关领域专家的判断这种方法使 o1 能够更好地处理涉及文化和主观因素的任务。

Q: o1 Mini 如何在更小更便宜的同时实现其性能？

A: o1 Mini 通过以下方式实现高性能：

STEM 任务优化：专门针对 STEM 推理任务进行优化
优先处理推理数据：在预训练中优先考虑推理相关数据
高计算强化学习：经过与完整版 o1 相同的高强度训练过程
专注于核心能力：集中于最关键的推理能力
效率优化：在模型设计中注重计算效率这种方法使 o1 Mini 能在保持较小规模的同时，在特定任务上达到接近完整版 o1 的性能。

Q: 改进 o1 和 o1 Mini 的下一步计划是什么？

A: 未来的改进计划包括：

更好的指令遵循能力：提高对复杂指令的理解和执行
函数调用：增强与外部系统和 API 的交互能力
开发者消息：改进与开发者的沟通和反馈机制
结构化输出：提供更规范、易于处理的输出格式
多模态能力：整合图像、音频等多种输入模式
增强世界知识：扩展模型的知识库，提高通用理解能力
安全性提升：进一步加强模型的安全性和可靠性
推理时间优化：探索如何更有效地利用长时间推理
创造性任务改进：提高在艺术和创意领域的表现这些改进将使 o1 和 o1 Mini 在未来变得更加强大和多功能

像用实习生一样用 AI 辅助你编程

2024-10-09aigc阅读(56)

我是不敢让 ai 帮我写程序的，每回问它的问题，十次倒有八次是错的，问完之后还要自己去网上搜一遍，然后反复测试，才敢写进代码。不知道大家怎么甩手给它的。
——响马

响马毫无疑问是编程高手，几十年的开发经验，另外他写的代码都属于一些底层代码，被训练过的比例极少，AI 大概率写不出来高质量代码，不放心让 AI 帮忙写程序正常。但对于普通程序员来说，不一定要像响马那样，拒绝 AI 的帮助。

比如我就是个普通程序员，写的都是一些简单的前端 UI 代码，或者后端增删改查代码，并没有太高技术含量，就经常让 AI 给我帮忙，还是让我效率提升不少的。我总结下来经验就是：像用实习生一样用 AI 辅助你编程。

在科技公司或者开发团队经常能看到这样的场景：某些资深程序员，写代码特别牛，效率特别高，但是很多活都压在他们身上，成为了团队瓶颈，于是老板说，这样不行，给你几个实习生或者新手程序员帮你分担一些吧。

大多数时候这种提议是被拒绝的，倒不是他们藏私不愿意带人，而是在他们看来，把活交给实习生，一个简单的任务都要花几天时间，自己一小时就做完了，中间还要沟通，做完质量不行还要帮忙擦屁股，花的时间超过自己写的时间，一点都不合算，另可自己做。

这些确实是事实，但是可能忽略了一些问题：

实习生是会成长的，很多事情教了一遍就不需要再教第二遍了。
再复杂的程序也是有些“体力活”的，比如说搭个脚手架，新增个模块，简单的重命名/重构，等等。对于资深程序员来说，老是干体力活会倦怠的，但是对实习生来说正好是一个学习的好机会。
能从实习生身上学习到新的东西。当我们对一门技术太熟悉，会有路径的依赖，不太容易发现或者接受新的技术，同样的任务让实习生做，虽然大多数时候不如你做的，但是也会有眼前一亮的时候，能学到一点新的东西或者开阔一下眼界：原来还可以这样！
如果你的任务不能交给实习生做，也许架构上存在一些不足，无法合理的将功能拆分。有些程序员的活不能拆分出来，一个原因可能是架构还不够好，模块都在一起，无法拆分。当然即使拆分后肯定还是有些复杂模块是无法进一步拆分的，这不在此列。

我在带实习生上有一些经验，所以在使用 Cursor 或者 GitHub Copilot 的时候，就是把 AI 当成一个实习生用，效果是很好的。

01 首先体力活都交给 AI 来做

体力活指的是那种重复的、要求不高的、繁琐的工作。比如说：

新建一个页面、一个 API
一个数据库增删改查的模块
单元测试

这些活说难也不难，但是自己写有点麻烦，所以我每次都是 Cursor 里面用 CMD+i 唤出 Composer，把相关代码文件都添加上作为上下文，然后提出要求，一个初始的功能就有了。

比如我要为自己的博客网站增加一个 Sitemap 的功能，我当然可以自己写，但光文件都得创建好几个，还得写一些基本的读取数据库和输出 Sitemap 代码，甚至我还得去查询一下 Sitemap 规范。正因为如此，所以我一直懒得加上这功能。

很快就帮我把相关文件都创建好了，虽然说 robots.txt 都给我做成动态的有点业余，但是也还好，至少我知道了内容应该是什么，懒一点就让它重新生成个静态文件，勤快一点就手动创建一个。剩下的就是调试一下，没什么问题就可以发布了。

理论上基于这个结果，还可以一直提要求，知道满意为止，或者差不多了自己接管手动修改一下。

我个人是觉得，让 AI 帮忙先实现一个基本的模块，意义不仅仅在于减少了体力活，而是帮你开了个头！万事开头难，很多时候真的就是因为没有一个开头就没继续，当有个初始的结果，哪怕烂一点，再基于它上面修改要简单很多，更容易交付。

02 给“实习生”一个葫芦，让他们学着画瓢

对于实习生来说，稍微复杂一点任务很难从无到有做出来，但是如果给他们一个已经做好的模块作为参考，照着葫芦画瓢，那么也能做个差不离。

让 AI 帮你编程也是一样的，你不能指望 AI 能像你一样厉害懂你的代码库，但是你可以教它，把一个类似的实现代码给它参考，甚至于写一段伪代码让它实现。

就拿前面 sitemap 的例子，添加到上下文的 feed.xml/route.ts 就是“葫芦”，有了这个“葫芦”，它去“画瓢”就容易多了，它可以从中去学习最佳实践是什么。

03 设计架构和技术选型的时候，选“实习生”熟悉容易上手的技术

技术选型是一个让人纠结的事情，需要各种考量，现在更是多了一个维度，就是要考虑把 AI 当成你的团队成员，想让 AI 能更好的帮你干活，那么就少造一些轮子，少用一些偏僻的框架或类库，用那种最流行的，训练语料最多的框架和库。

比如我在给自己搭建博客的时候，选的 Nextjs、Tailwindcss、ShadcnUI、D1（Sqlite），这些都是相当流行和容易上手的框架和库，所以我让 AI 帮我实现一个 Sitemap，它能知道在什么创建文件，遵循什么规范，写 UI 也知道如何帮我添加正确的 CSS。

04 将复杂任务分解成简单的任务，让“实习生”帮你完成小的模块

资深程序员和新手程序员的一个分界，就是能不能将复杂模块拆分成简单的小模块。比如我要搭建一个自己的博客网站，就 AI 现在的能力，是没办法自动完成这样一个项目，但是我可以让它帮我创建一个页面，帮我实现一个数据库读写的功能模块，帮我基于数据库读写模块实现一个 API，而我自己，则可以聚焦于数据库的表设计、系统的架构设计、UI 设计这些事情上。

05 向“实习生”学习

现在在实现功能的时候，哪怕我比较熟悉的，我会习惯性问一下 AI，让它帮我生成一段代码，虽然大多数时候它不一定比我写的更好，甚至是错误的，但有时候它能提出一种全新的我没考虑过的思路，那我就能从中学习到点什么，以后可能就用的上了。

就像大数学家陶哲轩，也在用 AI 帮忙解决数学问题，并非 AI 数学比他厉害，而是给他提供了不一样的思路。

我曾遇到过一个问题，我尝试了几种方法，但都无法解决。于是，我尝试询问 GPT，你建议我使用什么其他方法来解决这个问题？GPT 给我提供了 10 种可能的方法，其中有 5 种我已经尝试过，或者明显没有帮助。的确，有几种方法并不实用。但其中有一种我还没尝试过的方法，那就是针对这个问题使用生成函数。当 GPT 建议我使用这种方法时，我意识到这就是我漏掉的正确方法。所以，将 GPT 视为一个交流伙伴，它确实具有一定的用处。
——陶哲轩

06 对“实习生”产出的结果要验证

既然 AI 只是一个实习生，那么就说明它生成的代码是靠不住的，哪怕看起来很好，总是要像对待实习生一样，去对代码做审查，理解它实现的思路，对结果进行测试验证，出现问题让 AI 改进或者手动修复。

如果有人去责怪产品的问题是因为 AI 生成的质量不行，那只能说明是在甩锅，就像你生产环境的故障不能怪这是实习生写的，难道你们不做 Code Review，不做 QA 的吗？

07 最后

这是我在日常使用 AI 辅助编程的一点经验分享。如果你把 AI 当成一个资深程序员，那么你大概是要失望的，但是如果你把 AI 当作一个实习生，它真的可以做不少事情，让你提升编程效率。

另外一些现在 AI 还不能完全替代专业程序员的地方：

基于业务需求进行抽象和架构设计的能力
对复杂问题进行分解和统筹规划的能力
出现问题定位和调试的能力
当然还有出问题背锅的能力

欢迎分享你的经验！

Pika 1.5重磅升级！万物皆可爆炸，搞笑特效全网病毒式疯传

2024-10-03aigc阅读(66)

时隔多月，斯坦福华人团队创办的 Pika 终于官宣 —— 新一代AI视频模型来了。

刚一上线，全新的特效功能就让全体网友玩疯了！

喊着「臣妾做不到啊」的皇后、深情对视的四郎和嬛嬛，忽然被挤瘪。

脸上洋溢着神秘微笑的蒙娜丽莎，开始融化。

表情包里的网红小猫，猝不及防就被捏了。

01 专业能力大提升

这次最直观的升级，就是Pika 1.5在专业领域上达到了全新的高度——图生视频（I2V）和文生视频（T2V）的质量更高，表现力更强。

可以看到，Pika 1.5的一个明显提升，就是画质更加细腻、更加逼真了。

房屋坍塌的画面中，建筑倒塌的各部分都十分符合物理规律，逼真的画质已经达到了大片级别。

冰川上的男子无论是脸上的表情、纹路，还是胡须中的冰块，都完全还原了现实中的画质。

02 超强运镜

在运镜方面，通过诸如快速变焦、快速平移、摇臂镜头和「子弹时间」的简单提示，用户就能快速实现专业的拍摄效果。

要生成具有大片质感的战争场面，只需要短短30字左右的提示词，经典的「子弹时间」镜头也能轻松拿捏。

镜头从远处快速拉近时，也能流畅变焦，观感非常自然。

03 动作更稳定和流畅

不仅如此，Pika 1.5表现的人物动作，也更加稳定和流畅。

这位墨镜大哥抬手比心的动作，全程流畅得看不出破绽。

毛球小怪兽抬脚走过车站的场景，自然得仿佛它真的出自现实世界。

04 全新特效Pikaffects，让全网疯狂

Pika 1.5这次的模型不仅有更好的运镜和动作，还有超强的物理模拟能力。

与模型同时推出的，是全新物理特效「Pikaffects」—— 任何物体都能被压碎、融化、膨胀、爆炸，甚至还能变成蛋糕被一刀切开。

这么有趣的功能，也太适合解压、太网感、太适合做表情包了吧。

果然，Pikaffects一经发布，就被全网网友玩疯了，很多画面直接形成了病毒式传播！

Twitter创作者 Bilawal Sidhu 表示，Pika 1.5相当疯狂。

当我说GenAI会让我们编辑现实时，我并没有想到会是这样……

Pika1.5一经发布，已经被全网种草了。

由于太过火爆，Pika服务器处于崩溃边缘

你是否曾经想过一掌拍碎面前的电脑？或者让它直接爆炸？

看到图片中可爱的喵星人，谁不想把手伸到屏幕里捏一捏？

这些现实中无法完成的效果，Pikaffects现在的可以帮你实现了。

一个马桶，可以被压扁、融化、被切开、爆炸、挤压、膨胀……

相比先前视频模型中明显违反物理规律的破绽，Pikaffects在各种脑洞大开的操作中。还能让人感觉直觉上可行，在「想象力」和「现实感」之间做到了极好的平衡。

05 牛顿的棺材板，这次压住了

为什么说，特效功能Pikaffects代表着AI视频领域的一个亮眼进展？

以往，很多视频生成模型被诟病最多的，就是「不符合物理规律」，牛顿的棺材板天天压不住。

而Pika团队本次训出的模型，似乎对物体的材质、空间位置关系和语义内涵都有了更好的理解，生成的运动轨迹也更为合理。

基于这种更准确的「物理模型」，Pika 1.5脑洞大开，在产品创新上着实向前迈进了一大步。

现在，Pikaffects已经直接开放体验了。点击几下就能生成大片级别的「超现实」场面，快来试试吧！

传送门：https://pika.art/home

1. 有趣的灵魂万里挑一

正如Pika团队所说，「AI视频不只是用来制作电影级大片，还应该让所有人都能生成有趣的视频」。

有趣的脑洞、想象力大开的画面，跟互联网的基因，以及AI视频的属性，简直天然契合。

如今，整个互联网流量的82%，已经被视频占据，AI对视频的影响已经不容忽视，或许会如同AI在文本领域的变革一样深渊。

成立仅一年即筹集1.35亿美元的Pika，此次又为行业树立了新的标杆——搞笑和有趣，就是AI产品的新方向。

2. 小白0门槛上手，生成无需抽卡

相比于那些需要绞尽脑汁才能做出来的AI大片，Pikaffects的操作可以说是完全没有门槛。

只需上传一张图片，并选择想要的特效，就能得到想要的结果了。

小编立马尝试了一下。

第一步，从手机相册上传照片。

第二步，选择effect。

然后拿起咖啡，等上一会儿……视频就搞定了！

或者，都不用上传图片。

直接选个特效，Pika就会随机一张图片，并生成相应的效果。

值得一提的是，用Pikaffects生成视频，你甚至都不需要抽卡，物理特效几乎100% work。

也就是说，对AI工具完全不了解的小白，也能定制属于自己的特效视频。

从此，聊天再也不缺表情包！

06 2.0何时发布？

从1.0到1.5，Pika每次更新都为我们带来了惊喜连连的体验。

这次，Pika1.5强大表现，让我们不禁对下一代版本2.0更新充满期待。

虽然目前还不知2.0版本具体发布时间（预计是明年3月），但可以肯定的是，它将必定再次刷新我们对AI视频的全新认知！

参考资料：

https://x.com/pika_labs/status/1841143349576941863

https://x.com/pika_labs/status/1841236385052967351

https://x.com/pika_labs/status/1841239427852747202

马斯克：Sora 一出，人类呜呼

2024-09-30aigc阅读(70)

早些时候，当 OpenAI 放出 AI 文生视频模型 Sora 的几条作品时。

马斯克随即在 X 上（原 Twitter ）上表示：『 gg humans / 人类呜呼』。

“gg”是网络游戏用语“good games”的缩写，主要用于游戏结束后，输赢双方都可以用，一般是「打的好，我认输」的意思。

要说人类马上玩完了，目前来看似乎还有些遥远和牵强，但 AI 的文生视频能力对于短视频创作者的的确确会产生实质性的影响。

来，当你看到下面这段视频时，是否会忍不住惊讶的感叹到：

AI 让唐僧和女儿国国王终成眷属

『瓦特，这不会是真的吧？』

当然，这是『真的』。

不过，真的，是用 AI 生成的（/笑哭）。

这条作品在整个剪辑过程中，任何所谓短视频的『技巧』都没有，只是通过 AI 工具的图生视频的能力，仅此而已。

奏是这么简单。

这也是 AI 创作对平台的内容生态带来的实质性的改变和震撼。

那么，未来 AI 创作又将对内容创作者或个体产生哪些不可预知的影响呢？

AI 能力的迭代速度惊人

一、降低创作门槛，提升创作效率

是的，比以往任何时间拍摄素材都要简单、高效。

简单到仅需一句话即可，就能快速生成一段足以以假乱真的视频，甚至连剪辑都节省了（如果生成的内容令你满意的话）。

如果你不满意，就能立即马上再让 AI 重新生成另一条新的甚至不同风格的作品。

BTW，最重要的是， AI 不会附带任何情绪去对待你的无数看似无理的需求（打工人想必你肯定经历过修改产品方案时，但凡超过 3 次，你就会产生去拿工位的砍刀的冲动）。

而在这之前，拍摄一天时间能会收集几十条素材，接下来再花两天时间剪辑，可能最终只能生成一条正式作品。

现在，理论上，你可以在一天之内任意生成多到任意你需要的任意素材，且没有摄影团队的成本、没有出差的时间成本、没有衣服、食物的商品成本。

只需动动手指，敲出描述提示词，即可。

这意味着 AI 在降低创作门槛的同时，将大大大大大幅提升用户的创作效率。

是的。

我从来没有见过能如此高效且如此低成本并产出如此优质和有竞争力的内容的方式和手段。

二、迸发更多创新和创意

爱因斯坦曾经说过：『想象力比知识更重要』。

没错，想象力。

准确的说，唯二可以阻挡你任意生成多到任意你需要的任意素材的除了上面提到的电脑死机，第二个就是你的想象力的枯竭。

借助文生视频 AI 工具，将给短视频创作以及内容生态甚至世界带来更多的可能性、创新性、多彩性。

一切你能想象到以及由于当下的限制条件无法实现和拍摄出来的场景或特效，甚至无法想象的，都有机会化做现实并跃然屏幕上。

这意味着任何人，任何时间，任何地点，都能通过 AI 创作工具，实现任何具有想象力的内容创意（尤其对于每一个可能存在内容创作的瓶颈博主而言）。

三、更多低质同质化作品

只要刷到爆款作品，马上就能通过 AI 工具，短短几分钟内实现 1：1 复刻，瓜分本来属于他的泼天宝贵流量。

这意味着，作品的同质化将达到一个前所未有的新高度。

这当然不是平台愿意看到的，如果类似的【低质同质化作品】充斥在平台的内容生态内，对于平台而言当然是必须不可被接受的。

且看各大平台现在对『数字人直播间』的态度，甚至已经无差别的封杀低质量数字人直播间。

BTW，那波搞数字人招商代理的微商们，倒是赚的盆满钵满。

四、内容创作更卷了

创作效率又高，一分钟一条；

创作成本又低，仅需一句话；

创作者不受限，长个嘴就行；

都将倒逼内容创作者再一次卷出新高度。

再加上用户在短视频的的近几年的洗礼下，对于内容所能提供的情绪价值的阈值越来越高。

内容创作者如想要规避内卷，通过 AI 作品脱颖而出，必须也只能不断拼创新、拼创意。

才得能在数以万倍增加的内容供给池中去争夺趋近饱和的用户的宝贵注意力。

正如潘乱老师所言：

在抖音中，内容链条的链主是算法加持的分发，由分发来激励上游的内容制作。但未来在 AI 的视频里，内容链条的链主重新变回内容，由内容创作的本身来重新塑造内容的分发和消费。

I can’t agree more.

五、创作门槛更高了

是的，我没有写错。

没有门槛，就意味着门槛被无限拔高了。

这就好比，你老觉得做网红没门槛，是个人都可以。

简单到，连话都不用会说，连字都不用会写，连交流都不用会懂。

但，你，成为网红了吗？

SO，我想问一下：

AI 内容的创作，至关重要的核心是什么？

对，是 Prompt ，是提示词，是那道开启魔法大门的咒语。

But，看似简单的一句或一段 Prompt，并不仅仅是一句或一段 Prompt 而已。

作为『造物主』（请允许我在这里，未经许可的称呼 AI 文生视频的创作者），你必须对要将要生成的目标作品有异常清醒的思考和认知，大到架构、风格、小到细节里隐藏的彩蛋等等。

事实上这意味着，你可能是集编剧、导演、演员、场务、后期剪辑等等于一体的顶级操盘手。

来看下 Sora 官方给出的 Case 里的 Prompt 是如何描述的：

一个小的、圆的、毛茸茸的、长着一双富有表情的大眼睛的动物的3d动画探索了一个充满活力的魔法森林。这种动物是兔子和松鼠的异想天开的混合体，有着柔软的蓝色皮毛和浓密的条纹尾巴。它沿着波光粼粼的小溪跳跃，惊奇地睁大了眼睛。森林里充满了神奇的元素:发光和变色的花朵，紫色和银色叶子的树木，以及像萤火虫一样的小浮动灯。这只生物停下来和一群在蘑菇圈周围跳舞的小仙女嬉戏。这只生物敬畏地仰望着一棵巨大的、发光的树，这棵树似乎是森林的中心。

几只巨大的长毛猛犸象穿过一片白雪覆盖的草地，它们长长的毛茸茸的皮毛在风中轻拂，远处白雪覆盖的树木和戏剧性的雪山，午后的光线与缕缕的云和远处的太阳创造了温暖的光芒，低相机的视角是惊人的，捕捉到了美丽的摄影，景深的大型毛茸茸的哺乳动物。

动画场景特写了一个毛茸茸的矮个子怪物跪在融化的红烛旁。美术风格是3D和现实的，重点是照明和纹理。这幅画的气氛是一种惊奇和好奇，因为怪物睁大眼睛，张开嘴巴凝视着火焰。它的姿势和表情传达了一种天真和顽皮的感觉，好像它是第一次探索周围的世界。暖色和戏剧性灯光的使用进一步增强了图像的舒适氛围。

华丽的词藻、精准的描述、独特的视角、多样的修辞手法。

相信我，并不是所有人，都有如此丰富的文化内涵并同时能对自己到底想要什么有着如此清晰的认知和思考，并致力于产出如此引人入胜的作品。

不仅如此，由于 AI 创作工具的稳定性和可控性的缺失，对于生成的内容作品中的细节部分还原度不够充分甚至出现不明所以的 bug，这意味你还需要一遍又一遍的思考如何对 Prompt 进行调整和试错。

三条腿的舞者 badcase

可是，我们大多数普通人，很多时候压根就不能清晰且准确的表达自己的诉求。

就好比搜索引擎，面对一个空白的搜索框，明明可以搜索出任何内容，但他们就是不知道如何使用，偏偏在微信群里问来问去。

举个例子：

你告诉 AI ：生成一段猫咪在走秀的视频。

但你自己脑海中的真实影像可能要复杂的多，有更多的潜台词根本没有描述到位：

一只黄色的猫咪，全身像，拟人化行走，动态姿态，系着围巾，时尚T台，猫咪身穿时尚蓝色长款风衣，手拿包包，香奈儿风格，巴黎时装秀，华丽的灯光，背景虚化的观众，真实摄影。

U see see，这门槛不可谓不高的吧。

BTW，这也是生活中我们日常沟通时发生冲突的问题所在（总以为自己所表达的很清楚了，对方怎么就 get 不到我的点？）。

六、高门槛会阻碍 AI 的普及和发展

当然，是的。

前段时间，红衣公开课上也重点提到：『复杂的提示词是用户使用大模型最大的障碍』。

没错，我们的用户，只想、只会、也仅擅长使用和沉迷『无需动脑子』的东西。

一个无需思考，无需搜索，无论男女老少，老弱病残，牛马，高知，哪怕是个 3 岁小孩，都只仅仅需要『上滑』，这一个简单到令人发止的交互动作，即可毫无压力的愉悦身心。

你知道我刚才在指什么（平台/内容）。

是的，某种程度上，一款产品或工具，如果它有一定的使用门槛亦或学习成本，就意味着，用户会远离它。

有媒体报道，目前中国所有 AI 原生应用加在一起，日活在 1000 万量级，这和短视频的 7 亿日活以及人均 125 分钟的日均使用时长相比，有些许相形见绌、无地自容。

七、造假，更简单了？

如果说『千万粉丝博主猫一杯在巴黎捡到作业本造假事件』还让人觉得的是互联上的大部分短视频是剧本的话，那么未来在 AI 的加持下，所有的视频不光剧情是假的，连出镜的博主，哪怕镜头里晃了一下的小猫咪都将会是假的。

图片源自网络

因为，这一切的背后可以简单到只是一句话亦或一张图片。

一张照片变身马斯克（上下左右毫无瑕疵）：

这意味着，当你再浏览图文亦或短视频作品时，哪怕任意一条。都有必要去质疑一下：

这不是真的！

这是 AI 生成的！

虽然这么做有些许极端，但我依然强烈建议你这样做。

八、搞钱，更容易了？

或许你应该还记得，曾经国内唯一有资格与 OpenAI 的 CEO Sam Altman 平起平座，且要给每一个中国人最后 6 个一夜爆富的梦想和机会的清华美院博士：

我管你们美帝的互联网强大是靠科技、靠 AI 、还是靠创新，我们的互联网创新一直稳定的可怕。

没错，这次，我们的 AI 依然要靠知识博主们来实现全民赋能。

当然，这不能全然怪这知识博主。

存在即合理嘛。

没有广大的群众基础，一个巴掌也拍不响。

毕竟，在这个硕大的内容生态中，最受欢迎的，最火的，最爆款的绝对不会是谈 AI 涉及的机器学习、神经网络算法，而是如何通过 AI 实现年入百万。

也不会是讲经济学原理，而是简单粗暴的诉说麻木不仁的富人如何压迫可怜又善良的穷人。

更不会是讲深奥的物理学定律，而是一边 BGM 情绪拉满，一边对着镜头口吐芬芳：

『千万别学英语，这样会让资本主义国家更强大』。

不过，不过，不过。

在另一个层面上，割韭菜的 AI 博主也不全是一无是处。

你不得不承认，恰恰是这些搞 AI 的知识博主，带来了更多 AI 科技内容、知识在大众层面的快速普及。

当微商兴起时，他们是微商主理人。

当短视频爆发时，他们又变身短视频引领者。

当私域如火如荼时，他们又化身私域变现第一人。

当数字人刚有苗头时，他们号称数字人落地闭环教父。

现在，当 AI 正热时，他们又摇身一变为企业 AI 赋能专家。

你渴望改变命运吗？

来，家人们，最后 6 个如何通过 AI 年入百万的机会，把 666 打在公屏上，上车。

九、英语，还用学吗

不管你承认与否，这都是既定事实。

尤其在这个『相对空前开放』的世界里，得学。

以互联网和 AI 领域为例，绝大部分重要的、深度的、有突破性研究成果的文献、论文，以及 Github 上开源的代码，英文内容的形态都相对丰富。

亦或哪怕你作为一个 C 端用户，与更多 AI 工具更丝滑的交互，以获得相对更高质量的作品和内容，也不是什么损失。

Midjourney 可进行如放大、变换风格等连续的复杂的多轮的对话

BTW，我不太清楚为什么最近几年内有些群体一直叫嚣着让禁止学习英语是出于什么不可告人的目的（不排除是怕你不乐意接受一辈子只能当牛马的命运），而且还能在获得巨大共鸣。

但不用英语在当下某种程度上又是一种趋势，甚至连街边的路牌都从英文换成了外国人看不懂，中国人也不看的拼音，美其明曰：文化自信。

一切是为，别人问你 sin90 度等于多少时，你可以面露不屑的回怼：

会英语有什么了不起啊？

十、未来，已来

上个月，麦当劳日本在 X（原 Twitter）上发布了一条 AI 生成的薯条广告。

连马斯克看完都直呼内行：

十一、试问 AI 未来能否最终取代 4A 公司？

我们不要神化 AI 创作工具所带来的颠覆，但也不能小看 AI 创作工具带来的创新和价值。

Prompt：一直长着翅膀的老虎在空中飞翔，杂志式摄影，用 200mm 镜头拍摄，逼真，细节丰富。

是的，无论你我是否有机会从事或参与 AI 相关的工作，你我都要时刻对 AI 可能为这个世界带来的变革和影响保持持续且密切的关注。

北京时间 6 月 19 日凌晨，英伟达市值 3.34 万亿美元，成为全球市值最高的公司（截止发文时，已回落至 3 万亿美元左右，排名在 Apple 和微软之后）。

任何生产力工具本身并没有主观意识，能发挥多大的价值，也取决于驾驭者本身。

这所有的一切。

It’s All depends on u.

上一页
1
···
3
4
5
6
7
8
9
...
下一页
共 26 页

AIGC 第6页

一、大厂卷AI，哪些产品跑出来了？

二、有人严防死守，有人静待时机

三、爆款AI应用产品，还在探索中

AI视频通话，一座有待打磨的原矿

方向一：+智能手机=拟人化生活管家

方向二：+垂直行业软件=虚拟行业专家

方向三：+硬件=有温度的情感共同体

01 AI 聊天机器人的定义

1. AI 聊天机器人用例

2. 国内外 AI 聊天机器人示例

02 AI Agents 的定义

1. AI Agents 用例

2. 国内外 AI Agents 示例

03 AI 聊天机器人与 AI Agents 的差异

04 AI 聊天机器人和 AI Agents 选择

01 引子：不算久远的AI往事

02 诞生：进化而来的“思考力”

03 应用：充分开发CoT，为我所用

1. Let’s think step by step

2. 复杂决策/评估的报告产出

3. 头脑风暴，创意产出更精准

4. 为思考流程进行“自定义”

5. 多轮对话时，重新唤起记忆

04 结语：人脑的特权 vs 智脑的“模仿”

01 解锁使用AI播客的三种姿势

1、最强AI第二大脑，“信息快餐”开吃

2、自我关怀，听老外轮番“彩虹屁”

3、自制英语播客，费曼学习法达成

02 声音短视频化，知识内容生产及消费方式将被改变

一、打工人的“救星”

二、创业者的掘金工具

三、AI产品，困在哪儿？朝哪儿卷？

01 首先体力活都交给 AI 来做

02 给“实习生”一个葫芦，让他们学着画瓢

03 设计架构和技术选型的时候，选“实习生”熟悉容易上手的技术

04 将复杂任务分解成简单的任务，让“实习生”帮你完成小的模块

05 向“实习生”学习

06 对“实习生”产出的结果要验证

07 最后

01 专业能力大提升

02 超强运镜

03 动作更稳定和流畅

04 全新特效Pikaffects，让全网疯狂

05 牛顿的棺材板，这次压住了

1. 有趣的灵魂万里挑一

2. 小白0门槛上手，生成无需抽卡

06 2.0何时发布？

一、降低创作门槛，提升创作效率

二、迸发更多创新和创意

三、更多低质同质化作品

四、内容创作更卷了

五、创作门槛更高了

六、高门槛会阻碍 AI 的普及和发展

七、造假，更简单了？

八、搞钱，更容易了？

九、英语，还用学吗

十、未来，已来

十一、试问 AI 未来能否最终取代 4A 公司？