用好Agent,发挥人的最大价值
在过去一个多月里,我最重要的事情就是利用AI Agent重构自己学习、工作的方法和流程,希望可以最大程度的利用AI,发挥它的作用为自己产生更大价值。这个过程比我当初预想的长,其中的收获也远高于最初时的预期——本来只想找到更高效的工具组合以及对应的工作流,但最终更想明白了一件事:AI的本质是一个缺乏隐性知识但具备极强逻辑归纳能力的执行引擎,人机协作的终局并非替代,而是价值的重新分配。
一、了解并发挥大模型的特点
使用一个工具,首先要明白它的能力边界。遗憾的是当前的流行媒体中极少有客观、真实、基于个人持续探索的体验分享,同时大模型又有一个特点——和它沟通的如果不是你的专业领域,它会让你赞叹不已;可深入你所在的专业领域,就发现其所知虽然广博,但在细节和精深之处经常犯错。这就让我往往过高估计其能力,从而走了一些弯路。
基于自己的摸索,但也受限于有限的使用场景(我很少做编码,更多是行业及产品分析),有如下判断:
大模型非常擅长方法论、思维模型:我这段时间在此方面收获颇丰,之前持续摸索的一些事项,虽有经验和框架,但尚未形成有效的工作流系统,曾经为此翻阅不少经典书籍,却都没有专门的讨论。在和Claude Opus讨论时,它在这方面经常会让我有意外的惊喜。我猜想得益于大模型在预训练阶段不但学习了大量公开的出版物,也学习到了一些特定行业、企业内部的培训和工作流规范类似的材料。它给我一个很好的基础样本,基于自己的情况做一定的调整后就可以形成属于自己的工作流。基于当前的几组工作流,会让自己在时间、习惯的加持下逐步走向远方,而不再原地打转。
大模型的逻辑思维非常出色:在以结果为导向的强化学习加持下,高质量的预训练和思维链训练使其具有极强的逻辑思维能力,这使其在思辨讨论和文章写作上具有极高的能力。在我的认知中,人往往是先有预判之后,再使用逻辑思维的方式进行确认:多大可能是真的、是否需要满足什么前提条件等等。因此在构思某些内容的早期阶段,往往是一种混沌的状态;当你和大模型进行交互时,它似乎可以轻易找到你想法中的隐含逻辑,挑战、补充,让你的想法可以更快的成熟。
大模型缺少专家具备的隐形知识:这主要表现为两点——首先我们工作多年,在不同企业中经历了技术研发、产品营销、组织变革等,这些经历在我们意识中形成了很多隐性的知识,这些知识也许细碎、零散,但却是有关人类组织活动的关键信息和见解,它对于我们了解事件发生的概率和进程等至关重要,这些只有很少的内容被公开研究、记录,成为AI可以学习的内容。其次我们可以通过了解一家企业的组织架构、持续关注管理者的言论和行动对其管理层有真实并客观的了解,而AI可以得到的信息更多是网络中的营销素材,充满了伪装和修饰,我们想让大模型去客观评估一家公司的管理团队,非常困难。大模型在这方面的弱点与其底层技术密切相关,即缺乏持续学习能力,以及从上下文中识别核心知识和精华的能力,因此这个弱点有可能会长时间存在。
大模型通常缺少非共识见解:大模型对于事物的默认见解,是基于互联网信息中权重最大的部分形成的共识。当你希望完成一项完整的分析工作,如果其中关键部分涉及到的共识可能错误,那么它给出的结论大概率都是错的。这并不是不可改变,你可以把这部分单独拿出来和它讨论,甚至引入多个顶级模型进行相互辩论,这就有可能得到一个更符合现实的结论,基于这个结果再让它去完成完整的工作,它就可以提供出一个高质量的答卷。
进一步看,这个问题之所以存在,根源在于训练机制本身的结构性矛盾。要形成非共识判断,模型首先需要具备一种元认知能力——能够识别”当前共识在哪些情境下不可靠”。但模型的训练数据本身是共识的产物,人类评估者的偏好也深受共识影响,这意味着从数据到奖励信号,共识偏向已经在训练的源头被固化。这不是工程优化能够解决的问题,它嵌入在当前大模型的学习机制之中。
前面探讨的都是AI Agent的特点,我们还需要注意可靠性的问题,因为幻觉问题依然难以避免,最典型的是在信息搜索中,它提供的很多链接都是编造出来的。我们可以使用一些专门的信息搜索类Agent(如:Deep Research)等,并且在Skill或者提示词中要求对信息做复核,这有可能降低幻觉的比例,但不能完全避免。在Deep Research中链接的真实性极大程度是可以保障的,但有时其中的内容却和主题缺少关联性,基于几次问题的分析,我猜测是在某一层级进一步分解搜索关键词时,未能保持和主题的强相关性,因而干扰了最终结果的生成。无论如何,如果研究的内容对你足够重要,还是需要逐次点开页面进行审核。
针对自己的工作,理解AI的能力边界,本质上是在定义人机协作的分工,有它作为基础我们就可以构建出加持了AI能力的新型工作流了。
二、工作流中的模型和Agent软件
下面就谈谈我当前的工作流中使用的模型和Agent软件,从通用性考虑依照信息收集、阅读理解、论点研讨、文章写作这几个环节。每个环节都有一些值得考虑的特定工具,以及人机交互的方式。
1. 信息收集从被动接收到主动获取
之前出于对关键信息遗漏的焦虑,我在 RSS应用和 X平台上订阅了数百个数据源,并同时高频浏览各类新闻网站与公众号。这种被动接收耗费大量时间成本,投入到低效的信息筛选中,且注意力极易被无关信息劫持。当前利用Agent我定制了每日新闻和每周重要事件跟踪两个功能,定时触发。每日新闻中主要定义我感兴趣的领域,让AI每天自动把主要新闻平台的相关内容汇总在一起并进行摘要后提供给我;而每周重要事件中我更详细的定义了行业中哪些类型的事件必须关注,让AI通过搜索将属于相关事件收集整理完成后统一提供给我。通过这两个举措,我很大程度上克服了对信息遗漏的担心,将X平台和RSS的数据源都控制在了数十个,每天大概10-20分钟就可以快速过一遍,如果其中涉及到一些长篇文章,先通过AI总结确认其价值后放到Read-it-Later类软件中;而新闻网站除了每日新闻提供的链接外,就不再打开了。利用这种方式节省了大量时间,在一定程度上也摆脱了社交媒体的控制。
涉及到特定细分领域的信息收集,我更多会使用Deep Research这样的Agent,它可以将你设定的主题进行细节拆解后,变换不同的搜索关键词进行反复多轮的互联网信息搜索,并评估返回信息的质量是否满足需要,直到信息接近饱和状态。然后基于搜索的结果提供一个整合好的文章以及相关的网络链接列表。这种方式可以让你迅速获得在某一个专项问题上的大量信息。至于具体工具的选择,Google的DeepResearch在搜索的挖掘能力上最出色,而Claude利用自己的搜索白名单机制可以给出更简洁的反馈,它们满足了不同的需求。此外需要指出Google Gemini应用中的DeepResearch往往因为各种算力等原因被降智,这时候AI Studio中的独立Agent API就是一个更稳定、可靠的选择。
2. 利用AI加深对文章、书籍的理解
转到书籍/文章(也包括视频和访谈纪要)的学习研究,就不得不谈到Google的NotebookLM,它是我在这个阶段重度依赖的Agent工具。NotebookLM最大的特点是在大模型后置了RAG系统,它生成的内容严格依照你上传的书籍、文档等资料,确保其真实性。大模型在其中起到的作用是沟通渠道以及如何更有效的呈现资料内容。我在阅读书籍、长篇文章时经常使用它帮助自己做二次阅读(重要书籍、文章,我认为第一遍需要自己阅读,然后通过它确认自己没有遗漏关键点并加深印象),或者特定信息检索。而在研究中可以让它帮忙提取多个材料中的数据做横向对比,或者用更直观的形式来呈现这些数据。
更值得一提的是你可以给模型设定多个角色,利用不同的视角来挖掘材料中隐藏的信息,比如一个善用批判性思维的人,一个善于从反应/语气/语调中挖掘信息的情绪专家、一个行业技术专家等等。这种基于不同角色进行深度内容挖掘的模式,其实不同的top模型都可以做,你只要针对需要的角色定位,写好Skills或是提示词,它们就都有可能给你一些意外的发现。
这里还有小插曲,为了快速掌握一个细分行业的概况,在Claude帮助下设定了一个构建行业入门知识库的Skills,当我对特定领域感兴趣时,可以利用这个Skills快速生成一个入门知识库,包含了行业内部价值链构成、核心术语、典型的商业模式、客户及其购买决策机制、行业内的竞争以及行业内典型的成功/失败案例。基于它我可以快速把握一个行业的全貌,再通过具体的书籍和文章持续深入。
3. 和多个AI组成相互批判的研讨小组
当我初步形成了一个观点时,经常会先写一个简单的备忘录,记录自己有什么样的想法或者判断,其中的逻辑和事实是什么,然后把它上传到Claude或者Gemini上,让它们以批判的眼光审视这份材料,这时他们会给出意见——赞同那些、反对那些、为什么,你可以基于它的逻辑和事实展开进一步讨论,提供新的证据/想法,又或者你可以让另一个大模型参与进来,让它提供对上面讨论的批判或者建设性意见。很多时候模型对于有其它模型参与讨论能够很快的察觉,这时它们似乎会表现得更努力。
4. 利用AI指导写作
在刚开始利用AI指导写作的时候,我往往把它当作错别字和病句的检查器,可后来发现它更适合的角色是一个出版编辑:
当你有了一个初步的想法时,至少有三个方面可以先和AI讨论:从什么角度切入,如何组织、如何开篇,这三个方面如果做好了,才有可能成为好文章;
写作过程中可能涉及到一些具体观点、逻辑的展现和表达,模型也会给出比较有价值的建议;
当文字初稿完成后,可以再次提交给大模型让它给出修改建议,特别是针对段落之间的启承关系、结尾的处理等。
针对写作而言各家大模型似乎各有擅长,单就偏技术类文章而言,Claude Sonnet似乎是不二之选——清晰的逻辑、简洁的表达。
明确了在什么场景下使用什么工具,但现实中每个人在同一场景使用同样工具,形成的结果却天差地别,这就涉及两个问题,即这种人机协作如何最大程度发挥工具的作用,同时也最大程度发挥人的价值,这就是下面两节我要讨论的问题。
三、用好大模型的三个关键点
这部分不单纯是自己的体会,也是看了一些分析使用大模型效果差异的文章后,发现针对如何用好模型能力其实有高度的共性特征。以下三点可以说是最重要的:
换位思考
在刚接触大模型的时候,无论你和模型都没有学会如何彼此打交道,这时很多交互的结果可能并不让你满意,不要急于否定,可以尝试把交互的对象看作一个人类,去考虑什么原因让它有了这样的回应,对原因有了猜测之后就可以尝试调整交流的方式——向它传达更多的上下文、对自己的诉求表述的更加清晰,等等。当前的大模型应用,即使在Chat模式下,也会尝试通过会话的历史来更清楚的了解每个人的偏好、需求和思维方式等等。经过多轮互动后彼此之间就会越来越熟悉。这个过程需要用换位思考的能力尝试去理解它,也让它明白你。当前我使用的几个模型就对我比较了解,有时甚至会主动提出特别有针对性的建议。知识的饥饿感
当因为一个疑问开始对话时,在第一轮大模型往往就会给你一个看似很全面的回答,据第三方的调研,大模型利用效果较差的人往往会就此打住,满足于有了一个看似不错的答案。但这轮的交互远远没有利用到大模型在知识上具备的广度和深度。基于它的回答,如果进行持续的追问,就会发现它会提供给你更具价值的知识,让你更接近于从第一性层面来理解事物。但这种见解,很大程度上不是来源于它的主动回复,而是你深入思考,不断的去追问,抽丝剥茧之后它呈现给你。放手给模型发挥的空间
我们使用AI Agent,希望它能够提供我们需要的内容,因此往往会在Skills或者提示词中给出严格的限制或者说规则。这不是使用大模型的最好方式,我们可以假设它是你的一名出色下属,应该如何部署工作?给出目标和条件约束,具体的执行给他自由。大模型也是如此,它当前已经足够聪明,因此过多的规则对于它发挥是一种限制。我自己也遇到过随着规则越来越多,模型的表现会越来越差,在多个大模型的Agent中都有这样的遭遇。因此Anthropic明确建议,当开始写一个提示词或者Skills时,可以先尝试用最简单的形式完成,然后观察模型的运行效果,在可能的情况下,就不要再增加更多。
三个关键点:换位思考让我们善于和模型沟通,对知识的饥饿感让我们从交互中获取最大价值,而放手给模型空间更让它可以更稳定的工作并给出惊喜。这时候我们就要进一步追问:如果AI的价值得以体现,那么人未来的空间在哪里,在社会中作为人类个体又将如何体现价值?
四、Agent时代,人类的独特价值
AGI到来的言论一直是社交媒体的宠儿,最近Anthropic的Mythos模型确实又给了营销人员一个热潮的机会。但如果肯花1个小时的时间,去了解一下Anthropic发布的《System Card: Claude Mythos Preview》就很容易知道其距离AGI还远。文中提到,当前模型能力的突破过程中,人类研究员起到了绝对主导的作用,而Mythos在模型改进层面的贡献更多是“可靠地执行人类指定的方法 (human-specified approach)”,其限制主要在:“对自己想法的质量缺乏判断力 (lack of judgment about the quality of its ideas)、假设检验不充分,以及容易得出过度自信的结论”。
从当前看,在人类所具备的某些宝贵特质上,当前架构中存在本质的冲突,没有范式的突破应该难以实现,这些特征包括但不限于:创造能力、品味、平衡处理复杂事物以及情感交流。
创造力:大模型高度的依赖共识信息,这在大多数场景下都是有效的,但创新能力很大的来源是反共识的,它对当前我们习以为常或者漠不关心的事进行深刻的反思,这往往是创造力的来源。这种本质的冲突使其能够成为一个优秀的执行者,而不是富有创造力的开创者,前面Anthropic内部对Mythos的评价就是如此。创造力也来源于对现实人类的真实洞察,而正如下面第4点将提到的,它缺乏人类的情感沟通能力,无法在现实中的广泛、深刻的沟通。
品味(taste):这里的品味和审美无关,Gemini可以对我的摄影作品提出一针见血的批评意见和有效的完善建议,很难说它没有审美。这里的品味,更多是在行业多年工作形成的某种直觉。例如,一个PM在分析大量需求,并经历多次产品迭代周期后积累的直觉,能够帮助其在繁杂的需求池中迅速定位关键点。这种品味不是数学、逻辑的对错,AI很难习得,因此一个有品味的PM、一个有品味的架构师,一个有品味的底层程序员等等,在AI时代都会是更重要的存在。
需要复杂判断的工作:AI的判断力建立在可以量化的对错之上,同时也必须在确定的时间内得到反馈,而在人类的社会活动中,复杂的商业决策、艺术评价或者伦理判断,往往没有绝对的真理,这时AI更倾向于提供符合大众偏好的“共识性废话”,而不是具备深刻洞察的判断。而人类中的企业家、风险投资家、战略规划师、产品架构师、政治家、法官等等,他们都擅长在高度不确定性中做决策,在充满价值冲突的环境中,在法理、人情、社会/业务影响等诸多方面去寻找微妙的平衡。
真正的情感沟通:人类的情感基石,来源于百万年来生物进化形成的本能,它和大脑皮层无关,是神经网络难以学习到的,这是大自然赋予碳基生命独有的特质。人与人的交流、人与其它生命的交流,与大模型相较全然不同——我在大自然中感受周围的树木与湿地,观察鸟类的行为,也包括和真正的人类交谈,其中的情感和状态与面对AI完全不同,我想越是了解当前AI何以具备如此能力的人,越会将它视为工具。
至少就当前看AI实现了人类工作中最缺少人类特质的部分:作为一个螺丝钉,依照确定性的规范做重复性的劳动,而面对人类最重要、最富有价值的特质,它却缺少与之相比的实力,这其实给了人类一个机会:利用AI尽可能的压缩琐碎、重复、低价值活动在人生中的占比,尽可能的去发展那些人之为人更重要的特质,因而成为更有价值的人。
具体到我个人——利用AI工具控制社交媒体对时间的侵蚀;利用AI完成可以自动化的那部分工作;使自己有更多时间去做独立思考、去阅读不朽的历史和人文著作以培养品位、去欣赏伟大的艺术作品以感受生命、去尝试和人做更深刻的交流 ...... 这一切应该会使我后续的人生更有价值。
五、结语
《历史的教训》书中讨论地理气候对人类发展的影响这章,杜兰特夫妇说:地形的轮廓和特征,或许会为农业、矿业或者商业的发展提供机会,但只有富于想象力和主动性的领导者,以及坚韧勤勉的追随者,才能将可能变为现实;而且只有类似的组合,才能克服成千上万的自然艰险,创造出一种文化。是人类,而非地球,创造了文明。
在当下AI技术变革的时期,AI提供给人的同样是机会,如果能够抓住机会,就有可能数倍放大自己的价值,同时也可以节省更多的时间去做只有人才能做、也只有人值得去做的事——用一个下午认真读一本书、迎着朝霞到湿地等待一只鸟、和真实的人进行一场真实的对话......
——是人类,而非AI,才是文明的守护和发展者。


