AGI备忘录2025
为了持续观察、思考AGI技术浪潮,写作是一种可靠的方式,为此我尝试把一些重要的信息和观点整理出来。我在当前这个时间点——2025年初——越来越确信以下两个趋势:
当前AI模型的快速发展,为AI Agent相关应用发展奠定了基础,但是从长期看,我们还处在AI模型能力发展的早期阶段;
由于头部AI公司发展战略存在较大差异,由此模型能力差别将越来越大,进而使某些厂商可以在特定细分领域形成护城河。
趋势一:当前尚在AI模型发展的早期阶段,未来能力提升空间更大
一个常见的沟通障碍是参与者对关键概念的理解存在较大差异,这一点在讨论AGI时显得尤为突出。当我们问AGI何时来临时,却难以对AGI的范围、程度有清晰的共识,以至于微软和OpenAI的谈判中,使用带来的业务营收规模来界定这个问题。由于存在这种概念理解的差别,大家对何时达到AGI有着非常不同的看法:有人认为2-3年左右可以达到;有人则认为需要5-10年的时间;还有人认为当前的技术框架下我们难以实现AGI,需要等待新的颠覆性技术。
既然在基础概念上存在认知差异,那么简单判定哪个答案更靠谱就没有意义,更有价值的事也许是了解哪些谨慎、甚至相对悲观者为什么认为我们不可能迅速达到AGI,当前的技术到底有什么关键不足?重要的提升空间在那里?
人类思维过程多数时候不会记录于文字,这使得AI训练缺少必要的数据来源;同时人类的思维方式也超越了文字,这使得当前的大模型难以真正掌握人类的思考模式。虽然OpenAI的o1、o3推理模型让很多人兴奋,认为找到了让机器学会思考的有效方法,但这种强化学习的思维训练存在明显的泛化不足,使其虽然易于着手但后续发展的潜力有限:其一是其机制仅适合于有明确对错答案的场景,如数学、编程、游戏等,存在标准的正确答案,并也容易建立检查、确认机制。但现实社会中人思考的问题,很难有标准答案,并且对错的判断也不是轻而易举的。其二是人类的思考方式,不仅仅可以使用文字逻辑,还包括更多如视觉图像、联想类比、情感直觉、隐形知识等方方面面。最近的一些测试就验证了,在需要空间思维能力的数学解题中,已有最先进的模型依然无能为力。
不能否认当前最先进的大模型已经相对成熟,特别是其具备的基本推理、记忆、反思能力,已经可以支持AI Agent的构建,由此超越模型自身内置知识和推理能力的限制,向更主动、自主的智能发展。这样的Agent应用,可以在很多场景下充当人类的助理。但因为上面谈到的不足,大模型还没有出现类似AlphaGo 对弈李世石时第37步那样令人惊艳的表现,所以我们还不能说它可以成为一个好的专家。
基于Demis Hassabis、杨立昆等人的观点,后续的关键在于使基础模型可以理解周围的世界:世界的物理性质、世界的动态、世界的时空等,以及我们所⽣活的现实世界的结构——这就是经常提到的世界模型。世界模型形成的基础是更强大的多模态,以及用了构建长时记忆的更长的上下文能力,由此进一步发展才可能形成具备世界模型的AI,它还可能需要和Transformer 不同的AI架构。
年初,DeepMind对现有第三方的文生图模型做了评测分析并得出结论,它们都还没有正确理解当前世界的物理规则的能力(实际也确认了Google在多模态上的领先地位)。因此模型能力、架构的发展还都需要时间,乐观的角度可以认为人工智能会在某一天展现出远比今天更令人惊艳的表现,因为还有巨大的提升空间。
趋势二:头部大模型差异化越来越明显,进而在细分领域可能形成护城河
2023年,Google内部流出一篇叫做《我们没有护城河,OpenAI 也没有》的文章,其观点为很多人认可。不可否认从当时看,确实很难判断哪家公司可能因何缘故而形成有效的护城河。不过无数企业发展的历史告诉我们,真正的护城河不是在事物兴起的早期阶段就能够明确的,而是由一次次战略选择、落地执行、时机&运气等多种因素共同累计,逐步构建的。站在当前的2025年,可以明显看到头部AI公司在大模型的方向选择上存在极大差异,这种差异所造成的模型性能差异也逐步拉大,进而个别企业有可能在不同的细分领域,形成各自的护城河。
下面我们就来具体分析这些头部公司可能存在的差异:
一、战略方向选择
OpenAI已经从一个技术型公司转换为产品型公司,并且是ToC为主的产品公司,这在Sam Altman以及Satya Nadella最近的访谈中都可以看到端倪,特别是Sam Altman在“Stratechery”访谈节目中表述的那样,对于OpenAI最重要的是如何扩大用户基数并提升用户黏性,而领先的模型能力并不是其Top 1的目标。Sam Altman的愿景是构建AI时代的新Google,在他看来当前的LLM能力可能已经可以支持这个目标,OpenAI更需要产品、商业模式的创新,以及更低价格的算力(自研芯片)。
对于Google,更先进的AI模型依然是其优先事项,不但因为其在2年前的目标就是要开发具备世界模型的人工智能,也因为其构想的超级应用是个全能助理(硬件依托可以是手机、智能眼镜,更可能延伸到具身机器人)以及科学&医学研究助理,需要更高的智能水平。当前在多模态能力、长上下文上的领先是为了构建具备世界模型的AI进行的基础性工作,他们设想的研发道路还需要数年的时间来逐步落地。当然,基于当下AI模型如何在搜索、广告、云及视频&音频领域建立更大的业务优势,也是Google持续不断的目标。基于2024年社会反响远低于其技术进步的反思,独立的AI应用在其整体版图的地位将得到大幅的提升。
Anthropic 专注于企业市场,希望为企业内的知识工作者提供最好的AI模型,在编程、写作这些和语言关联极强的场景提供最大的帮助。这些场景当前看也是其优势所在。Anthropic 的CEO在最近一些谈话中明确表示,并不会考虑做一个完善的多模态AI模型,而是聚焦选定场景需要的AI能力,持续不断的完善。这无疑是一种非常稳健的创业企业技术&业务策略。
Meta一直以开源AI自诩,但实质是开放权重,这两种其实完全不同。其开放的目的和开源软件应该也不同,但这种开放对Meta非常有价值:其一是提升了Meta的品牌;其二更好的招揽AI技术人才;其三扰乱其它头部AI厂商的发展,同时防止其模型能力被可能的竞争对手使用(授权中对产品使用用户总数的限制)。杨立昆对模型后续发展的思路和Google非常相似,但Meta在人才储备、当下模型能力等方面和Google尚有差距,在Q1的财报电话会议中,扎克伯格提出了激进的AI基础设施投资计划(600-650亿美元,同比增长53%-66%,考虑到其没有对应Google的公有云业务,这个投资规模和增速可以说是相当高),这应该是Deepseek之后,确信领先的AI模型对其业务的重要性以及和Google之间的差距,而采取的追赶措施。
曾经OpenAI的首席科学家Ilya Sutskever ,领衔创建了Safe Super Intelligence(SSI)。这家公司致力于使用和当前不同的方法来训练更智能的AI模型,在Ilya看来依赖更多参数、更大算力和更多数据的方式来提升模型性能,已接近其发展极限。虽然这家公司没有透露其具体的思路、方法,但从其最近一轮融资是依照至少200亿美元来进行的,及半年前的4倍(2024年9月初创估值50亿),可以推断其工作进展比较顺利。
二、AI中的人性
2024年5月,OpenAI发布的语音功能刻意模仿了知名演员斯嘉丽·约翰逊, 此事造成了很大的舆论风波。此事也反映了大部分AI模型公司存在的想法——希望用户认为与之沟通的是具备人性、情感的生物,而不是一个机器;同时大部分用户对这种交流模式也非常认可。OpenAI和Anthropic是这种想法两个明显的代表,虽然他们对人性化的设定不同。Google则不同,其似乎刻意增强了模型交互的机器感,以使用户时刻感受到与你交互的是机器而非人类。这两种选择都有各自的道理:人性化的处理会增强感受,给人印象更为深刻,但不同的个性可能会吸引不同的人,很难提供一个模式让所有人满意,同时也许会有人不愿意进入这种模型编织的幻境中,机器化的感受会及时提醒它而不至于混乱真实和虚幻。当前看人性化的设定更被认可,但随着越来越的的AI模型渗透到人们生活中,是否依然会是主流的选择,存在不确定性。
三、数据优势
虽然只有一个互联网,但这个互联网上几个重要的社区都存在封闭性质,其数据并不容易爬取。而这些数据封闭社区的数据,对于AI模型训练却显得非常重要。因此Google花费每年数千万美元,去获取Reddit的数据;Grok基于X平台的数据优势训练而成,使其语言、观点也充分表现出X平台的特点;Google在视频(Youtube)、图片识别方面的数据积累,使其在多模态方面领先于其它厂商。
针对AI模型的必争之地——个人助理应用——数据更是关键,如果它要真正成为某个人的助理,就需要了解其服务的这一个人,个人画像类数据是Sam Altman当前努力希望获取的宝藏。当前看Meta可以基于社交平台的数据了解人;而Google 具备多个使用广泛的日常应用以及领先的统一认证平台,使其在了解每个人的特点上,具备较强的数据优势。
四、算力优势——规模与成本
Google自研TPU的成功,本应让它在算力规模上具备较强优势。然而在2025年初的Google财报电话会议上,管理层表示Google云的增长受到AI算力资源不足的制约,这种情况有些出人意料。我们回头思考这件事,会发现Google的算力资源也许绝对量上是领先的,但其需要算力的地方也非常多:搜索向AI转型、基于AI提供更好的广告、在Google云上提供AI算力服务、为自研AI应用&API提供算力保障、大模型研发&训练等等。内部多重同时庞大的需求,使Google的算力一直处在比较紧张的状态。进一步看大科技2025的基础设施投资,Amazon大约860亿美元(Anthropic更多依托此平台)、微软800亿美元、Google 750亿美元、Meta 600-650亿美元。Google虽然可以依赖TPU芯片以较低的成本获取更多算力,但考虑其AI算力的用途太多,在一定程度下会抵消这个优势,因此算力的紧张程度在几家中依然会比较突出。同时在2024年底,曾经传出消息Google消减了部分在台积电的TPU订单,在算力紧张的情况下却出现这种事情,大概有两种可能,其一是数据中心的建设进度缓慢,迫使部署TPU的时间同步延后,其二是可能看到AI模型架构革新的明确信号,这将使其TPU后续需要随之大幅更改,因此不愿意采购更多可能被快速淘汰的AI芯片。实质上数据中心建设难以一蹴而就、未来AI架构的不确定性、用户算力需求的波动、AI算力性价比的快速提升,这多种因素都会使大科技难以无限制地进行基础建设投资,大家都会在有一定算力限制下开展相关业务。
在算力上还需要关注的一个要点是成本——Google基于TPU在AI算力服务和AI应用上具有显著的成本优势,成本优势曾经是其搜索脱颖而出的关键,当前AI算力上的成本优势至少会驱动更多创新企业使用其算力或者云服务。Amazon当前的自研AI芯片尚未规模化使用(软件和系统集成层面的工作还在进行中)、未来AI模型架构升级等多种不确定性,当前难以判断其前景。
综合以上几点,在To C的个人数字助理领域,Google的大模型较大可能会形成优势,这不仅是它当前在这个方向已经具备多模态、长上下文、用户日常应用和数据等优势,同时也隐含对其长期眼光投资具备世界模型的AI能力的认同;此外在公有云领域,Google基于模型和算力成本优势,也有可能是最大的受益者。而ToB的企业应用领域,Anthropic凭借其既有优势和口碑(编程和写作)以及聚焦、深耕的战略,可能持续成为最受欢迎的模型。OpenAI虽然有着已经规模化的ChatGPT用户群体,但考虑到AI模型后续依然会有极大的进步空间,而聊天应用当前除了品牌知名度外缺少进一步的客户黏性,其未来的不确定性很高。
一切都是推测,未来发展如何,让我们拭目以待。在这个难得一遇的技术变革浪潮中,虽不能躬身入局,但作为一个旁观者来品味、思考所发生的一切,也是一种幸事。