悉看大势：大语言模型烧钱战小咖资金少难立足

过去一周，生成式人工智能（AI）界，可说是风云再起。

星期一（5月13日），OpenAI发布多模态大模型GPT-4o，能同时理解生成文字、语音和图像；隔天，谷歌发布大模型Gemini 1.5 Pro，赋予谷歌搜索推理能力；到了星期三，中国的字节跳动发布“比市场便宜99%”的豆包大模型，主打性价比。

彭博智库预测，到了2032年，全球生成式AI市场规模将达到1.3万亿美元（约1.75万亿新元）。由于生成式AI依赖大模型来实现生成能力，所以生成式AI之战，很大程度上也是大模型之战。

其中，运用最为广泛的是大语言模型（Large Language Model，简称LLM）。

资本在押注大语言模型的未来。微软已累计向OpenAI投资超过130亿美元；亚马逊在2月向OpenAI的竞争对手Anthropic追加27亿5000万美元投资；Meta在第一季业绩会上表示将多支出数十亿美元投资AI；谷歌4月则宣布投资30亿美元用于建设数据中心。

上述公司的股价今年上涨10%至40%不等，作为AI基础设施的晶片巨头英伟达更是暴涨近90%。

FSMOne.com研究部投资组合经理曾德均接受《联合早报》采访时说，亚马逊、Meta、微软和谷歌都大幅提高了涌向AI的资本支出计划，这一趋势会持续到未来几年。生成式AI很可能成为接下来10年内的最大趋势，且应该是结构性的趋势。

巨头之外，ChatGPT问世也掀起了一股AI创业热潮。据商业信息平台CrunchBase数据，2023年，全球AI起步公司的融资额接近500亿美元，其中有70多轮AI相关融资超过1亿美元。

然而，一年之后市场洗牌。面对高昂的算力成本、盈利难题、投资机构退缩，担忧开始显现了：大语言模型领域的竞争，是否只是巨头的游戏？

新加坡国立大学计算机系的校长青年教授尤洋受访时指出，大模型创业门槛非常之高。“没有两三亿美元的资金，几乎很难开始。如果你去看美国、欧洲和中国做大模型的公司都是如此。”

烧钱几乎刻在大模型的基因里。模型的性能好坏，很大程度上取决于参数量。参数量越大，意味着算力成本越高。

ChatGPT搜索能耗比谷歌高15倍

据美媒SemiAnalysis去年爆出的内幕消息，ChatGPT4参数量为1.8万亿，训练成本约6300万美元。这还只是算力的成本，不包括实验、失败的训练以及数据、人力等其他成本。

模型的日常运行也需要大量算力。尤洋告诉《联合早报》，一次ChatGPT搜索，比一次谷歌搜索的能耗大约高出15倍。《纽约客》此前报道称，ChatGPT每天消耗电力超50万千瓦时，相当于17万个美国家庭的用电量。

其实，电费相比晶片成本，是小巫见大巫。新加坡AI公司WIZ.AI联合创始人兼董事长陆剑锋受访时说：“扎克伯格说Meta要有60万片H100的计算量，OpenAI甚至可能有100万片。除了这些顶尖公司，其他公司很难从零到一，做通用大模型。”

H100是英伟达在2022年推出的高性能图形处理器（GPU），专为AI和高性能计算任务设计。H100没有公开的官方价格，不过在二手交易平台eBay上，售价已接近一片4万美元。

高昂成本直接带来盈利的难题。数据表明，现阶段大模型创造的经济效益，还远不能和投入相提并论。

根据Grand View Research报告，2023年全球大语言模型市场规模约43亿5000万美元。与之形成鲜明对比的是，CrunchBase数据显示，去年全球AI起步公司融资到的近500亿美元中，有足足180亿美元流向了三家美国公司：OpenAI、Anthropic和Inflection AI。

尤洋指出，由于算力成本过高，在现有架构和硬件技术下，即使面向用户收费，也不足以支撑GPT这样的通用大语言模型盈利。这可能也是OpenAI要自己制造晶片的原因之一，以降低一些成本。

此前，多家媒体报道，OpenAI正计划用数十亿美元建一座半导体晶圆厂。

不过，尤洋对大模型长期盈利仍有信心。“虽然几年内不能盈利，但随着技术的发展进步，长期来看顶级的通用大模型应该能至少实现不亏，因为用处确实很大。”

IG市场策略师叶俊荣受访时说，生成式AI要“变现”，仍有一段路要走，拥有丰富资源和大量数据的稳定科技公司会成为赢家。

短期盈利显然也不是巨头所追求的，它们在押注一个更远的未来——通用人工智能（Artificial General Intelligence，简称AGI），即真正和人类一样、甚至超越人类的智能。扎克伯格表明，AGI是公司的“长期愿景”。

Meta首席科学家杨力昆（Yann LeCun）曾说：“你认为AGI会到来，就必须购买更多GPU。”他把AI竞争比作一场战争，GPU就是武器。提供武器的人，是英伟达的黄仁勋。

AI起步公司融资更困难

除了弹药库充足的巨头，大多起步公司不得不正视商业化难题，因为市场风风火火过后，融资正在变难。

尤洋观察到，与去年相比，今年资本明显谨慎许多。“美国和中国的顶尖风险投资机构，很多也只能投一下A轮或B轮，之后就很难再投了。有的大模型公司在天使轮过后就变成独角兽（估值至少达10亿美元），但商业化能力不够，很难上市，投资人要考虑回报问题。”

如果说2023年是洪流中泥沙俱下的一年，今年可能是大浪淘沙后回归理性的一年。事实表明，一家创业公司，要么有出色的商业能力，要么有过硬的技术潜力，否则很快就被资本抛弃。

延伸阅读

悉看大势：低空经济飞得起来吗？

乘坐空中德士游览滨海湾金沙、滨海堤坝和新加坡体育城，未来的体验既靠近又遥远。（Volocopter提供）

悉看大势：非零和博弈新马可共享半导体大饼

美国媒体The Information报道，AI广告文案生成公司Jasper将内部估值削减20%，Character.AI和CopyAI等在第三方模型之上进行包装的AI公司，热度也在下降。

2月，中国AI公司竹间智能由于现金流压力宣布重组，部分业务线停工。这家曾融资超过10亿元人民币（约2亿新元）的昨日明星，仍没有足够资金和技术参与大语言模型的竞争。

专攻特定领域 AI小公司寻新出路

风险投资基金Flint Capital创始人斯米尔诺夫（Dmitry Smirnov）在一篇专栏中写道，对AI起步公司的投资并非成为过去，但普通起步公司受到青睐不像原来那么简单。

风投基金General Catalyst董事总经理博纳索斯（Niko Bonatsos）认为，AI起步公司的确面临融资挑战。不过，AI技术的发展速度非常快，随着技术进步，部分成本会下降。

“下一组算法会更高效，需要更少的计算机能力。此外，将有更多开源模型，创办公司的成本将会下降。”

陆剑锋认为，ChatGPT出现后，大模型起步公司处在“期望之巅”，而从去年下半年到现在，则变成了某种意义上的“绝望之谷”。

在他看来，“绝望”是因为要面临巨头的碾压式竞争。“现在对风投来说，看一家AI公司，大家都会想如果OpenAI来做同样的产品怎么办，因此对这些公司的估值就变了，现在面向消费端的投资会趋向理性。”

不过，他认为，面向企业端的垂直领域AI，并未形成巨头“赢者通吃”的局面，还有很多机会。

由于算力资源限制，针对特定领域、训练有特定功能的大语言模型，是多数较小公司的路线。这些大模型通常用于企业服务。

尤洋指出，比起通用大模型，垂直领域大模型可更快盈利。“假设针对特定场景训练一个大模型，体量和成本是OpenAI的百分之一，那很可能看到盈利。例如，用大模型去加速药物研发，或者帮助石油公司找石油。”

新加坡科技情报独角兽智慧芽（PatSnap）是一个例子。公司联合创始人关典受访时说，与OpenAI以及Anthropic的通用大模型相比，智慧芽的大模型在专利这一垂直领域要更深入和准确。

她认为，这是大模型时代的机会。“对于巨头来说，垂直应用市场较小，它就不会首先和你来竞争，这样你就有空间去生长，如果你真正专注去了解客户和场景，就可以做得很深，建立壁垒和门槛。”

陆剑锋所在的WIZ.AI基于开源模型，加入印度尼西亚语的语料，训练了东南亚首个印尼语大语言模型，用于客户服务。他说，小公司追求的不是攀技术高峰，而是效率提升。“更多是让老瓶装新酒，而酒比以前要美味得多。”

另外，小公司对算力成本敏感，是大语言模型落地的难点。陆剑锋说，模型越大，推理代价就会越高，如果一个场景用到的只是简单知识，那么模型过大就不划算，这些在实际业务中还需考量。

美国全面领先大模型竞争欧洲中国倾力追赶

在这场竞争中，除了公司的分化外，国家之间的分化也变得明显。不论是在巨头还是起步公司层面，美国都全面领先。2023年，全球融资额前十的AI公司中，八家来自美国，两家来自欧洲。

地缘政治在影响这场战争。早在2022年，美国政府就禁止英伟达对中国出口高端的A100和H100晶片，让中国难以在AI领域与之抗衡。

尤洋认为，中国和欧洲目前是追赶者的角色，这种追赶是有意义的。“尤其是像中国这样的国家，强调自主可控，一定会发展独立的大模型，否则风险很高。”

他说，新加坡等小国，也有必要自研千亿参数级别的大语言模型。“倒不是为了和OpenAI竞争，但有这样一个模型，最适合东南亚语言和产业，能在各行各业中产生价值，同时又能吸引高端人才，就像中东推出的Falcon。”

2023年，阿联酋推出400亿参数的基础大语言模型Falcon，涵盖聊天机器人、客服运营、虚拟助理、语言翻译、内容生成和情感分析等一系列用例。Falcon性能出色，在一些维度上甚至超过OpenAI和Google的模型。

我国去年推出东南亚大语言模型

新加坡去年也推出专为东南亚量身定制的大语言模型Sea-Lion，拥有30亿和70亿参数两种版本。去年12月，在发布新加坡人工智能策略2.0同时，我国宣布投资7000万元在未来两年推出大语言模型，这个模型建立在Sea-Lion基础上，规模将扩大到300亿至500亿参数。

尤洋还认为，新加坡下一步应多增加算力，因为若算力资源有限，难以形成合力。另外，新加坡大语言模型起步公司规模不大，而起步公司通常在技术突破上比学术研究机构高效很多，目前除了美国外，中国、欧洲都有一些起步公司，新加坡也应在这方面布局。

什么是大语言模型？

大语言模型，是一种由具有许多参数的人工神经网络所组成的语言模型。

尤洋解释：“我们人脑有很多神经元，之间有100万亿个连接，让我们学习和思考。大模型的参数可看做是神经元之间的连接，有了类似人脑神经的整个架构后，大模型就能对互联网上的知识进行‘学习’。”

他说，大语言模型工作的基本原理是根据已有文本，预测下一个词出现的概率，进行输出。

大语言模型的“大”，指的是参数量。从2018年谷歌推出大规模预训练语言模型BERT拉开序幕，到OpenAI的GPT-2、GPT-3、GPT-4，以及谷歌的PaLM和Gemini，Anthropic的Claude，短短几年，参数量从亿，提升至万亿，掀起了这场生成式AI变革。

它常被认为是一种“暴力美学”——参数量越大，模型性能越好。这不难理解。神经元连接越多，AI就越像人脑，理解和推理能力就越强。因果推理的能力对AI系统进化十分重要，因此，大语言模型的出现，使通用人工智能成为可能。

悉看大势：大语言模型烧钱战 小咖资金少难立足