执行摘要未来出行的主战场已然发生决定性转移,不再是关于电动汽车的制造,而是关于自动驾驶智能的规模化部署。本报告分析了在此背景下出现的战略大分流,三种截然不同的哲学正在定义这个赛道。第一种,以小鹏汽车为代表,是B2B优先的物理AI赋能者。小鹏在2023至2025年的转型,标志着其从传统EV制造商向垂直整合的具身智能公司的激进转变。其Robotaxi战略是这一转型的核心,建立在成本结构重塑之上——即从高成本、依赖激光雷达的方案,转向以瞄准15万级价格区间的MONA平台为载体的低成本纯视觉技术栈。该战略由其第二代VLA模型 和自研的3000 TOPS图灵AI芯片驱动,旨在通过“双轨并行”模式来降低商业化风险:同时向C端私享用户和B端车队运营商销售具备L4能力的车辆。第二种,以特斯拉为代表,是分布式网络模式。特斯拉摒弃了B2B车队销售模式,转而构建一个点对点的Tesla Network——在这个网络中,数百万私人拥有的车辆将成为一个全球分布式的自动驾驶车队。这种模式建立在单一的、纯视觉的FSD软件栈之上,其目标是实现一个无地理围栏、全球通用的L4/L5解决方案。当小鹏在构建一个B2B产品时,特斯拉旨在创造一种新的去中心化经济,其专用Cybercab也只是作为该网络的节点,而非全部。第三种范式,由高德地图所体现,是空间智能基础设施提供商。高德不制造汽车;它正在构建所有自动驾驶车辆都赖以运行的、动态的、可预测的物理世界数字孪生。其与小鹏的合作是共生关系的典范:小鹏的车辆提供了关键的近场感知能力,而高德的TrafficVLM模型则提供了“远场”或“超视距” 的感知——例如预测三公里外的交通拥堵,或理解远处事故的连锁反应。高德正将自己定位为整个Robotaxi行业不可或缺的中立基础设施层。这场竞赛已不再是谁能造出自动驾驶汽车。这是一场关于模式的竞争:一边是小鹏的垂直整合、B2B赋能模式;另一边是特斯拉的激进分布式、C2C网络模式;以及高德这样的基础设施玩家,它们将为前两者提供“数字氧气”。最终的胜利者不仅将主宰出行市场,更将为下一个具身智能时代(从自动驾驶出租车到人形机器人)奠定基础技术。
引言 —— 物理AI时代的破晓
如果说2020至2024年是汽车行业百年商业模式被彻底打破的时期,那么这一颠覆性力量的源泉是电气化——一个虽然极其复杂,但本质上仍属于制造和电池供应链的挑战。然而,当这场关于规模化制造的战争进入成熟阶段时,下一个百年的真正价值战场已经清晰地显现:即物理AI的开发和部署。竞争的焦点不再是作为硬件的车辆本身,而是作为智能、移动、数据采集边缘计算设备的车辆。最雄心勃勃的公司不再将自己定义为汽车制造商,而是具身智能公司。
这一战略转向正在催生一场巨大的分流,一种根本性的哲学分歧,它将定义未来十年的产业格局。我们正在见证三种截然不同,甚至在某些方面相互排斥的未来出行范式的诞生。
第一种是垂直整合的赋能者,这一战略在中国的小鹏汽车身上得到了最鲜明的体现。从2023年到2025年,通过一系列精准的战略布局(包括收购滴滴的智能汽车资产), 小鹏终于在2025年11月5日的科技日上正式宣布了其从EV制造商向物理AI公司的转型。小鹏明确表示,其雄心不止于车,更延伸至人形机器人和飞行汽车,而这一切都将由一个统一的、全栈自研的AI技术栈提供动力。其Robotaxi战略,正是这一宏大雄心的商业和技术先锋。这是一个务实的、以B2B为重点的战略,其核心是通过MONA平台瞄准15万级的价格区间,并以其双轨并行的独特策略,向车队运营商(B端)和私享用户(C端) 销售其Robo版L4级智能汽车。
第二种范式是激进的分布式网络,这几乎是特斯拉独家奉行的愿景。从哲学上讲,这种模式与B2B车队模式背道而驰。特斯拉的战略不是向出租车公司销售汽车,而是将其售出的每一辆消费级汽车,转变为一个潜在的可创收的自动驾驶节点。它所构想的Tesla Network与Uber或Airbnb的未来如出一辙:一个去中心化的、对特斯拉而言轻资产的平台,个体车主在这个平台上共享他们的Cybercab或私家车,而特斯拉则从中抽取佣金。如果成功,该模式将具有无限的可扩展性,但其前提是必须解决一个巨大的挑战——即开发一个单一的、全球通用的、不依赖高精地图和地理围栏的纯视觉FSD技术栈。
第三种,也是最后一种范式,是中立的基础设施提供商——在这场新的淘金热中扮演“卖水者”的角色。这正是高德地图的战略。高德已经意识到静态地图在动态世界中的局限性,并已将自己重新定位为一家空间智能公司。其核心产品不再是地图,而是一个鲜活的、可预测的物理世界数字孪生。它所提供的TrafficVLM模型具备了任何单一车辆(无论是小鹏还是特斯拉)都无法独立实现的超视距感知能力——它能看见拐角之后,能根据远处事故预测交通拥堵的形成,提供一个超越车辆传感器的远场上下文感知层。高德的战略不是与小鹏竞争,而是赋能小鹏,并通过这样做,成为整个Robotaxi行业不可或缺的物理世界操作系统,从而降低全行业的创新门槛。
本报告将深入分析这三种相互竞争的哲学。我们将解构它们的技术栈,比较它们分歧的商业模式,并探讨小鹏-高德合作中深刻的战略共生关系。这不仅是关于出租车未来的故事,更是关于一个新产业诞生的故事——一场构建物理AI的竞赛,这个AI将代表我们感知、移动并与物理世界互动。而这三种意识形态,将塑造下一个万亿美金经济体的最终形态。
小鹏的赌局 —— 解构物理AI革命
小鹏汽车的Robotaxi战略,如果孤立地看,很容易被误读为一次简单的产品线延伸,或是在智能驾驶内卷下的又一次军备竞赛。然而,当我们将其置于2025年11月5日科技日所宣告的宏大叙事之下时,其真实面貌才得以显现:这并非一次改良,而是一场彻底的、高风险的范式革命。小鹏不再将自己定义为一家智能电动车制造商,而是明确了其作为面向全球的具身智能公司的新身份。其Robotaxi战略,正是这场革命的先锋、技术栈的核心载体,以及实现其物理AI宣言的第一块、也是最重要的一块试金石。
这场赌局的核心,是小鹏汽车在2023年至2025年间完成的三次根本性重构:即技术路径的彻底转向、成本结构的重塑,以及生态系统的耦合。
首先,在技术路径上,小鹏完成了从依赖到摆脱的激进跳跃。在2022年的探索阶段,其Robotaxi战略仍基于G9车型,一个高度依赖全套传感器(包括昂贵的激光雷达)和高精地图的传统L4方案。然而,小鹏管理层逐渐意识到这种很贵的模式在商业上不具备规模化可行性。更重要的是,何小鹏坚信,真正的无人驾驶必须摆脱对高精地图的依赖,才能实现全球泛化。这一判断,导致了小鹏战略的第一次转向:彻底拥抱纯视觉方案,并将其作为实现L4级自动驾驶的唯一路径。
如今来看,这一转向的技术底气,来源于其发布的第二代VLA(Vision-Language-Action)模型。VLA 2.0的最大突破在于它去掉了传统的语言转译环节,首次实现了从视觉信号到动作指令的端到端直接生成。这种所见即所控的架构,不仅大幅降低了系统延迟,也从根本上提升了模型在复杂和未知场景中的泛化能力,这是小鹏敢于彻底放弃高精地图和激光雷达的信心来源(在这次科技日之前,依然有很多从业者认为小鹏的Robotaxi方案会集成激光雷达)。
其次,在成本结构上,小鹏通过一次精妙的资本运作,为其技术理想主义找到了商业可行性的压舱石。2023年对滴滴旗下智能电动汽车项目资产的收购,是解开小鹏Robotaxi困局的关键一步。这次并购不仅为小鹏带来了滴滴的战略持股和全生态赋能(包括共享出行市场),更重要的是,它催生了代号为“MONA”的全新品牌。MONA的使命极其明确:打造“15万级”价格区间的专用A级车型。这一定价目标极具攻击性,它旨在击穿由百度Apollo RT6设定的25万元行业成本基准线,从根本上解决Robotaxi商业化的核心成本难题。低成本的MONA平台,迫使小鹏在技术上必须选择放弃昂贵的激光雷达,这使得其纯视觉的技术路线选择,从可选项变成了唯一解,实现了商业目标和技术路径的完美闭环。
为了支撑这一纯视觉和低成本的协同目标,小鹏在底层算力上进行了堪称不计成本的垂直整合投入。小鹏深知,没有大模型和AI的Scaling Law(规模法则),汽车智能化将在2024或2025年见顶。因此,小鹏选择了一条最难但护城河最高的道路:全栈自研核心芯片。其Robotaxi车型将搭载4颗自研的图灵AI芯片,车端算力高达惊人的3000 TOPS,小鹏宣称这是全球最高算力。这种自研芯片专门为大模型定制,相比依赖Nvidia的市场选项,旨在提供更廉价且高效的解决方案。而在云端,小鹏规划到2025年底,其云端算力将达到10 EFlops以上,全年研发投入超100亿人民币,其中近一半(约47.5亿元)将用于AI。这种“芯片+大模型+云算力”的垂直整合,构成了小鹏物理AI全链路闭环的核心能力。
最后,在生态系统上,小鹏选择了“制造+服务”的轻运营模式,而非独立重运营。何小鹏明确表示不直接运营Robotaxi,而是与伙伴推广。这一定位是明智的。它将小鹏的角色定义为赋能者和硬件/技术供应商。在这一模式下,小鹏的商业化路径被清晰地划分为“双轨并行”:一方面,通过MONA平台向B端市场(如滴滴、高德的合作伙伴)大规模销售低成本、全共享的Robotaxi车辆;另一方面,将与Robotaxi同源的L4级技术(包括相同的硬件和安全冗余)下放,向C端私人用户销售可自由切换驾驶模式的“Robo”版私享车。
总结而言,小鹏的赌局是一场精心计算的豪赌。它赌的是,通过纯视觉VLA 2.0模型解决全球泛化问题;通过MONA平台解决商业成本问题;通过图灵芯片和千亿研发构建技术护城河;最后通过B/C双轨并行和生态开放模式,实现商业化落地。这场转型的激进程度和垂直整合的深度,在中国乃至全球汽车行业中都极为罕见,它试图一举奠定小鹏在物理AI时代的领导者地位。
特斯拉的对位 —— 分布式超级计算机
与小鹏汽车B/C双轨并行的务实赋能战略形成鲜明对比,特斯拉所构想的未来,在哲学层面和商业模式上都显得更为激进、更具颠覆性,也承载着更高维度的风险。如果说小鹏的战略是成为物理AI时代的硬件和技术供应商,那么特斯拉的野心则是成为这个时代唯一的、全球化的、去中心化的网络运营商。小鹏在卖“产品”,而特斯拉在构建“网络”——这即是两者最根本的分野。
特斯拉的终局,并非一个由特斯拉自己拥有和运营的重资产Robotaxi车队,而是其CEO伊隆·马斯克反复提及的Tesla Network。这是一个点对点(P2P)的共享网络,其核心逻辑与Airbnb或Uber如出一辙。在这个网络中,数百万甚至上千万的、由私人消费者购买的特斯拉汽车(无论是Model 3/Y,还是未来专用的Cybercab),在车主不使用它们(例如在工作或睡觉时)的90%时间里,都可以自主上线接单,成为一个分布在全球各地的、去中心化的自动驾驶出租车队。车主因此获得收入,而特斯拉作为这个网络的运营商和平台方,从中抽取高额佣金(可能高达20%-30%)。
这一商业模式的诱惑是无与伦比的。它对特斯拉而言是绝对的轻资产模式,无需承担车辆的采购、维护、保险和运营成本,却能坐享网络效应带来的垄断性平台利润。然而,这一模式的成立,其前提条件之苛刻,也远超其他任何路径。它要求特斯拉必须且只能实现一个单一的、全球通用的、不依赖任何高精地图、无需地理围栏的L4/L5级完全自动驾驶(FSD)软件栈。
正因如此,特斯拉在技术路径上的选择显得偏执而坚定。它在行业内最早、也最彻底地拥抱纯视觉方案,甚至不惜通过OTA更新移除已装车的雷达功能,以此逼迫其FSI(Full Self-Driving,完全自动驾驶)团队只依赖摄像头。这种哲学的第一性原理是:人类只用两只眼睛就能驾驶,且道路是为视觉设计的,因此基于视觉的方案是唯一可扩展的通用解。其技术实现的核心,是与小鹏VLA 2.0在理念上高度一致的端到端神经网络。自FSD v12版本起,特斯拉开始用一个单一的、庞大的神经网络,来替代过去数万行由工程师手写的C++“if-then”规则代码。这个模型直接从摄像头的像素(Pixels)输入,经过分析,然后直接输出控制(Control)指令(如转向、加速、刹车),实现了“所见即所控”。这种模式的优势在于其强大的泛化能力,它能处理训练数据中从未见过的边缘案例(Corner Cases),而这是传统规则代码几乎不可能穷举的。
为了训练这个庞大的模型,特斯拉构建了两大支柱:海量的“影子模式”数据和专用的超算中心“Dojo”。特斯拉通过其全球数百万辆的“影子车队”,源源不断地回传真实世界的驾驶视频数据,构建了全球最大的自动驾驶训练数据库。而Dojo超级计算机,则是专门为其视频训练任务定制的AI算力集群,其唯一使命就是暴力破解自动驾驶这个AI难题。
因此,特斯拉的战略可以被理解为一场豪赌:它赌的是,只要拥有足够多的数据(全球车队)和足够强的算力(Dojo),就能训练出一个通用人工智能级别的驾驶模型,从而一劳永逸地解决全球所有场景的自动驾驶问题。这种“all-or-nothing”的豪赌,使其与小鹏的务实路线(如通过与高德合作来获取超视距感知,以弥补单车智能的局限)形成了鲜明对比。特斯拉的模式中没有基础设施合作伙伴的位置,因为它的系统被设计为必须独立解决所有问题。
总结而言,特斯拉的Robotaxi战略,是其FSD技术栈商业化的最终体现,也是其构建分布式能源和交通网络宏大愿景的一部分。它不屑于成为一个B2B的车辆供应商,而是要成为全球出行的“App Store”运营商。其专用的Cybercab(或称Robotaxi)车型,其意义并非B2B销售,而是为了进一步降低C端用户成为网络节点的成本和门槛。这场赌局的风险在于,一旦其“单一通用FSD”的终极技术路径被证明在短期内(如5-10年)无法实现,其整个Tesla Network的商业大厦便无从谈起。
基础设施层 —— 高德向空间智能的转向
在小鹏的物理AI和特斯拉的分布式网络这两种“造车”和“运营”的宏大叙事之外,存在着第三种范式——即高德地图所代表的空间智能基础设施提供商。这是一种“卖水者”的战略:高德不参与制造车辆的重资产游戏,也不直接运营车队,而是致力于成为所有Robotaxi玩家都不可或缺的“数字氧气”。这场转型的核心,是高德从一个地图导航工具,向一个动态物理世界实时建模者的升维。
高德的战略转向,源于对L4级自动驾驶单车智能局限性的深刻洞察。无论是小鹏的VLA模型还是特斯拉的FSD,其纯视觉方案虽然在近场感知上日益强大,但其感知范围受限于车辆的摄像头和传感器。车辆看不到三公里外的突发事故,也看不到前方高楼遮挡下的拥堵蔓延。这种近场感知的局限性,在复杂的交通环境中(如临时施工、高速事故)会带来巨大的安全隐患。
高德的空间智能正是为了解决这一痛点。它提供的是一种超视距感知能力。高德不再将自己视为一个提供静态地图数据的供应商,而是利用其过去20多年沉淀的数十万亿级的时空样本,以及融合了“时空信息建模 + 视觉感知监测 + 行业官方信息 + 用户分享与验证”的多渠道数据体系,构建了一个实时、动态、可预测的交通孪生系统。其核心技术体现,即TrafficVLM模型,扮演了系统的鹰眼。当几公里外的道路发生突发事故时,该系统能第一时间感知异常,并预判接下来的发展,例如拥堵可能迅速蔓延形成三公里长的堵车路段。基于这个能力,高德可以在小鹏的Robotaxi抵达拥堵区域之前,就向其推送预警和操作建议(如“前方三公里突发事故,建议您提前靠右行驶”)。这种能力,将车辆的安全冗余从被动反应提升到了主动预测。
在商业模式上,高德清晰地将自己定位为空间智能基础设施。其CEO郭宁的表述是,高德花了二十年,把理解时空复杂性这件事,沉淀成了一个极其稳定、可靠的底层服务。通过向小鹏(以及WeRide、Pony.ai等其他合作伙伴)开放这一能力,高德的实质目标是“降低整个行业的创新门槛”。它让小鹏等车企可以更专注于车辆本身的近场技术创新和用户体验,而将远场的复杂时空理解和安全冗余,交给高德的基础设施来处理。
高德的战略甚至触及了AGI(通用人工智能)的根本讨论。报告明确区分了两种智能形态:一种是如GPT般悬浮在语言空间中,对此时此地一无所知,被动响应需求的智能;另一种则是高德所追求的,具备空间定位、时间预测和物理交互能力,能在“预测 - 行动 - 验证”的闭环中不断进化的智能。高德认为,后者这种对动态物理世界的实时建模和闭环修正,可能比纯语言模型更接近AGI的本质。
因此,高德与小鹏的合作,不仅仅是商业上的协同,更是两种AI范式(单车智能与空间智能)的融合,旨在共同解决L4级自动驾驶的终极安全与效率难题。
两种技术栈的叙事 —— L4架构的比较分析
在Robotaxi的竞赛中,技术路线的选择决定了企业的生死。一个深刻的行业大分流已经发生:以Waymo和百度Apollo为代表的传统L4玩家,高度依赖激光雷达(LiDAR)和预先绘制的高精度(HD)地图。这种模式在特定地理围栏内(如凤凰城、北京亦庄)展现了极高的可靠性,但其高昂的传感器成本、对高精地图的绝对依赖,以及极慢的扩张速度(每开拓一个新城市都需重新测绘),使其全球泛化的商业前景变得黯淡。
正是在这一背景下,小鹏和特斯拉代表的新共识——即“纯视觉”和“去高精地图”——显得尤为激进且重要。双方都做出了一个相同的哲学判断:只有摆脱对高精地图的依赖,L4自动驾驶才能真正实现全球泛化和规模化商业落地。然而,尽管哲学趋同,两者在技术栈的具体实现上,正展现出截然不同的演进方向,这尤其体现在小鹏的VLA 2.0与特斯拉最新的FSD v14的对比上。
小鹏的技术栈核心,是其在2025年科技日上发布的第二代VLA(Vision-Language-Action)模型。这是一个端到端的系统,其最大的技术突破是“去掉了传统的‘语言转译’环节”。在传统系统中,视觉信号(“我看到一个红灯”)需要先被识别为语义信息(“红灯=停止”),再转为控制指令。而VLA 2.0则跳过了这个中间步骤,首次实现了从原始的“视觉信号”到最终“动作指令”的直接生成。这种“所见即所控”的架构,由其云端一个720亿超大规模参数的基座模型所驱动,并由车端4颗图灵AI芯片提供的3000 TOPS全球最高算力来执行。其核心是实现反应的极致:通过海量数据训练,让模型记住在特定视觉输入下应采取的正确动作。这是一种“视觉-动作”的直接映射,极大地降低了延迟,并提升了在复杂城市场景中的泛化能力。
而特斯拉的FSD技术栈,则在经历了v12的端到端革命后(即用单一神经网络替代数十万行C++代码),正在向FSD v14的“生成式AI”阶段迈进。如果说小鹏的VLA 2.0是“视觉到动作”(Vision-to-Action)的极致反应模型,那么特斯拉的FSD v14则试图成为一个“视觉到行为”(Vision-to-Behavior)的生成式模型。根据最新的行业分析,FSD v14的理念不再是简单地输出此时此刻的控制指令(如转向-5度、加速0.1G)。相反,它试图生成一个完整的、时间连贯的驾驶轨迹或行为序列。它不再是“反应式”地回答“我现在该干什么”,而是“预测式”地规划“我未来5秒的完整驾驶意图是怎样的”。这种模式的转变,使其在处理复杂交互(如无保护左转、环岛博弈)时,表现得更像一个有预判的人类司机,而不是一个高频反应的机器人。
为了实现这种行为生成,FSD v14在架构上正朝着专家混合模型(Mixture of Experts, MoE)演进。这是一个比单一巨型模型更高效的架构,它允许一个数万亿参数的庞大模型,在处理特定任务时,只激活其中最相关的专家网络(例如,“城市环岛专家”或“高速汇入专家”)。这使得特斯拉能利用其全球数百万辆车队回传的海量视频数据,训练出一个在规模和能力上都远超上一代的驾驶大脑。
因此,小鹏和特斯拉的对比呈现出一个清晰的图景:两者都摒弃了高精地图和激光雷达的拐杖。小鹏的VLA 2.0,是在“视觉-动作”的直接反应链条上做到了行业顶尖。而特斯拉的FSD v14,则试图利用其庞大的数据和算力优势,将自动驾驶从反应式模型,推向生成式和预测式的更高维度。
战略共生 —— 小鹏的“近场感知”与高德的“远场赋能”
小鹏汽车与高德地图的战略合作,绝非一次简单的“车企+图商”的传统联盟,而是“新L4技术范式”下的一次精妙绝伦的战略共生。如果说小鹏和特斯拉所代表的“纯视觉、去地图”路线是L4的“单车智能”的极致探索,那么高德所提供的“空间智能基础设施” 则为其补上了最关键、也是最具挑战的一环:“超视距”感知和“群体智能”协同。
这场合作的核心,在于高德的“远场赋能”完美对冲了小鹏“近场感知”的固有风险。首先,我们必须理解“单车智能”的物理局限。无论是小鹏的VLA 2.0还是特斯拉的FSD v14,其感知能力都受限于车载摄像头的物理视距。它们无法“看穿”前方的卡车,无法“预知”三公里外的拥堵,更无法“感知”一个高楼拐角后正在发生的临时施工。对于L4级自动驾驶所追求的极致安全而言,这种仅依赖“近场感知”的“反应式”安全策略,在面对真实世界中复杂的动态交通时,始终存在短板。
高德的“空间智能” 恰恰是为解决这一根本性难题而生。它不是对单车智能的“辅助”,而是为其提供了一个全新的“感知维度”。高德通过其TrafficVLM模型 和对“数十万亿级时空样本” 的分析,构建了一个实时的、可预测的“交通孪生”系统。其核心价值在于提供了两种“超视距” 能力:空间上的“超视距”: 当一个事故在小鹏Robotaxi三公里外发生时,高德的系统能通过“实时孪生交通系统” 第一时间感知异常。它不仅知道“发生了什么”,还能“预判”其发展,例如“拥堵可能迅速蔓延,形成长达3公里的堵车路段”。这种能力,使得车辆的安全策略从“被动避让”升级为“主动规划”。时间上的“超视距”: 高德的系统是基于对物理世界运转规律的动态认知。它理解早高峰的“潮汐”规律,也理解临时封路对周边路网的“涟漪效应”。这种“主动预测未来并采取行动” 的能力,是纯粹的单车智能所不具备的。
因此,小鹏与高德的合作逻辑变得异常清晰。小鹏的战略是赌在“纯视觉、去高精地图”的道路上,这使其具备了全球泛化和低成本扩张的潜力。而高德的“空间智能基础设施” 则扮演了“安全冗余层”和“效率优化器”的角色。它允许小鹏的Robotaxi在“近场感知”的基础上,额外获得一个“远场”的上帝视角。这种“近场感知 + 超视距信息” 的组合,是小鹏模式相对于特斯拉“单打独斗”模式的最大差异点。特斯拉的哲学是“单车智能必须独立解决所有问题”,而小鹏的哲学是“单车智能负责解决车辆本身的问题,群体智能负责解决环境协同的问题”。
高德CEO郭宁将这种合作定义为一种新的“分工协作”。高德将“理解时空复杂性”沉淀为底层服务,让小鹏这样的车企“无需在理解时空这件事上,再耗费巨大的精力”,从而可以“更加专注于车辆本身的技术创新和用户体验打磨”。这不仅是商业上的共生,更是技术路线上的相互成就,它为“纯视觉”路线的商业化落地,提供了另一条与特斯拉截然不同的、更具协同性的可能路径。
市场与模式 —— 商业战略的竞争
如果说技术栈的纯视觉革命决定了L4竞赛的入场券,那么商业模式的选择则直接决定了谁能在这场万亿美金的竞赛中最终存活并盈利。目前,全球Robotaxi赛道正清晰地分化为三种截然不同的商业模式:以百度“萝卜快跑”为代表的“B2C运营商”模式,以小鹏为代表的“B/C双轨赋能者”模式,以及以特斯拉为代表的“C2C分布式网络”模式。
B2C重资产运营商 (百度“萝卜快跑” / Waymo)
这是Robotaxi的经典模式,并且百度已将其推进到全球领先的规模化商业运营阶段。其核心是B2C:公司(如百度)自己研发、制造(或合作制造)并拥有一支庞大的L4车队,同时自己开发App,在特定城市(如武汉、北京、上海等十几个城市)向C端乘客提供B2C的付费出行服务。
最新进展: 百度“萝卜快跑”已不再是示范项目,而是进入了商业化冲刺阶段。它已在武汉等地实现了大规模的“全无人”(车内无安全员)商业化运营,并获得了相应的收费许可。其战略焦点已从技术验证转向单位经济模型的打磨和盈利路径的探索。
成本控制: 成本是该模式的生命线。百度Apollo的第六代车型在发布时,已将成本基准线设定在25万元人民币。而最新的信息显示,百度正通过技术迭代和供应链管理,推动其新一代车型的成本进一步向20万级别下探,以期尽快跨过B2C运营的毛利转正拐点。
优势:闭环控制: 对安全、体验和服务质量拥有100%的闭环控制权。规模化先发优势: “萝卜快跑”已在全球范围内积累了最多的全无人运营里程和订单,这种真实世界的B2C运营数据是其核心壁垒。政策协同: 深度参与中国各城市的智能交通和自动驾驶示范区建设,与地方政府和监管机构协同紧密。
劣势: 模式极重,资本支出极其高昂。扩张速度受限于车辆交付、本地化运营团队建设和城市准入许可,仍是“一城一策”的推进模式。
B/C双轨赋能者 (小鹏汽车)
小鹏的角色是技术和硬件的供应商与品牌运营商,而非车队运营商。其战略是“制造+服务”的轻运营模式。何小鹏此前已明确表示,不会直接运营Robotaxi车队,而是与伙伴(如滴滴、高德平台上的运营商)推广。
收入来源一(B端): 利用MONA平台瞄准“15万级”的极致成本区间优势,向B端车队运营商(如滴滴、高德的生态伙伴)大规模销售“全共享”的Robotaxi车辆。小鹏在此模式下是“卖车+技术赋能”的角色。
收入来源二(C端): “私享Robo版”。小鹏将与B端Robotaxi同源的L4技术栈(包括相同的安全冗余和硬件),打包成产品直接销售给C端私人用户。
优势: 这种双轨并行模式极大对冲了风险。B端销售提供了规模化和现金流,C端销售提供了高利润和品牌护城河。最重要的是,它避免了自建车队的重资产运营风险。
C2C分布式网络 (特斯拉)
这是三种模式中最激进、也最具颠覆性的一种。如前所述,特斯拉的Tesla Network本质上是一个“C2C”或“P2P”的平台。
商业逻辑: 特斯拉不拥有任何一辆Robotaxi(除了可能的Cybercab示范车队)。其网络由数百万私人车主的车辆组成。车主在不使用车辆时,车辆自主上线提供Robotaxi服务,收入归车主所有,特斯拉作为平台抽取高额佣金。
优势: 绝对的轻资产模式。一旦FSD技术实现突破,其网络可以一夜之间在全球范围内激活,形成无与伦比的规模效应和网络护城河。
劣势: 风险最高。此模式“all-or-nothing”,它完全依赖于一个单一的、全球通用的、不依赖高精地图和激光雷达的L4/L5 FSD的最终实现。在技术未达成的此时此刻,其商业模式为零。
总结三者的终局
百度“萝卜快跑” 在赌,他们能通过率先实现大规模B2C商业化运营和极致的单车成本控制(20万级别),在重资产模式下率先跑通单位经济模型,并最终通过规模效应实现盈利。
小鹏在赌,它能通过B/C双轨和技术赋能,成为Robotaxi时代的博世(Bosch)或英特尔(Intel)——即核心技术和硬件的提供者。
特斯拉在赌,它能成为Robotaxi时代的苹果App Store或Uber——即垄断性的平台网络运营商。
地缘政治分野 —— 数据、监管与全球化
自动驾驶,尤其是L4级Robotaxi,本质上是数据主权和人工智能主权的战略高地。因此,这场竞赛从一开始就不仅是技术或商业模式的竞争,更是一场地缘政治的博弈。中美两国在数据、监管和产业政策上的根本差异,正在塑造小鹏、高德、百度和特斯拉截然不同的发展路径和最终版图。
对于以小鹏、高德和百度为代表的中国玩家而言,其最大的优势在于一个高度协同、强力支持的国内环境。中国将自动驾驶视为新基建和弯道超车的国家战略。这种自上而下的支持,体现在三个层面:数据采集的规模与协同: 在中国,数据被视为生产资料。高德之所以能构建数十万亿级的时空样本和多渠道数据融合体系,其背后是相对统一的数据治理和采集标准。这种群体智能的数据基础设施,使得高德的空间智能和百度的车路协同方案得以快速推进。监管的试点与迭代: 中国政府采取了一种鼓励创新、小步快跑、区域试点的监管模式。从北京亦庄到武汉、上海的全无人商业化运营许可,监管机构与企业(特别是百度“萝卜快跑”)紧密协同,共同探索责任主体(如《北京市自动驾驶汽车条例》首次明确责任转移至车企)和运营规范。这为中国企业提供了宝贵的真实世界商业化运营数据。产业政策的保护与扶持: 强大的产业政策和对本土创新的扶持,为小鹏等企业创造了相对稳定的内部市场,使其可以专注于技术迭代,而不必在早期就面临Waymo等国际巨头的直接竞争。
相比之下,特斯拉作为一家在中国拥有深度运营的美国公司,其处境独特而复杂。特斯拉的全球化愿景,使其必须面对地缘政治的严峻挑战:数据主权的孤岛: 特斯拉FSD的训练依赖全球车队的数据回传。然而,在数据主权日益敏感的今天,这一模式在各国都面临严格审查。欧盟的GDPR、中国的《数据出境安全评估办法》等法规,都严格限制了高精度(尤其是视觉)数据的跨境传输。这迫使特斯拉必须在中国建立本地数据中心,其全球FSD模型可能因此被割裂为中国版和国际版,这对其“单一通用FSD”的哲学构成了挑战。监管的全球最大公约数: 小鹏和百度可以针对中国特色路况(如复杂的混合交通)进行优化,并与本土监管协同。而特斯拉的FSD必须设计为能同时应对加州的高速、欧洲的环岛和中国的鬼探头。它必须找到全球所有法规的最大公约数,这在短期内增加了其开发难度,但也可能使其系统在长期内更具鲁棒性和全球适应性。
综上所述,地缘政治的分野创造了两种截然不同的演进路径。中国玩家(小鹏、高德、百度)正在利用主场优势——即庞大的数据、协同的监管和受保护的市场——快速实现区域性的商业化落地和技术迭代。而特斯拉则被迫在数据孤岛和监管多样性的束缚下,艰难地推进其全球通用的理想,这条路的难度更高,但潜在的全球市场也更庞大。
具身智能的终局 —— 图灵芯片的经济学
Robotaxi竞赛之所以吸引了万亿美金的投入,不仅仅是因为出行服务本身的市场规模,更是因为行业领袖们(如小鹏和特斯拉)清醒地认识到:解决L4级自动驾驶,是通向“通用物理AI”(即具身智能)的必经之路。 Robotaxi不是终局,它是实现具身智能终局的技术孵化器和商业造血机。然而,要实现这一愿景,必须回答一个核心的经济学问题:如何支付通往AGI的昂贵门票? 尤其是对于小鹏而言,其物理AI战略(包括自研图灵AI芯片 ),面临着一个严峻的财务挑战。
1. 自研芯片的不可能三角
在汽车行业,自研AI芯片是一个「高NRE(非经常性工程)成本、高技术门槛、低摊销量」的不可能三角。与英伟达每年数千万、苹果每年数亿的芯片出货量不同,汽车行业的百万级年销量,很难摊薄动辄数十亿的芯片研发和流片费用。如果小鹏仅为每年一百万辆汽车开发一颗3000 TOPS的先进芯片,其“Nvidia税”(采购成本)很可能被替换为更昂贵的“自研税”(NRE摊销成本)。
2. 破局之道:技术同源的成本摊销
小鹏在其2025年科技日清晰地阐明了这一破局之道,其物理AI宣言并未局限于车辆,而是同时涵盖了四大领域:Robotaxi、第二代VLA模型、全新一代IRON人形机器人以及汇天飞行汽车。这绝非简单的多元化,而是一种深刻的技术同源战略,其核心正是为了解决自研芯片的成本摊销问题。
资料显示,小鹏的IRON人形机器人(搭载3颗图灵AI芯片,算力2250 TOPS)与AI汽车(Robotaxi搭载4颗图灵芯片)采用了技术同源的自研芯片和数据工厂。这揭示了小鹏的真实财务规划:扩大分母: 图灵芯片的NRE成本,不再仅仅由百万辆汽车这个分母来摊销。它将被“百万辆汽车 + X万台人形机器人 + Y架飞行汽车”这个更大的分母池来分摊。统一架构: 小鹏的目标是用世界基座模型支持所有物理AI终端的通用模型。这意味着,其云端算力、AI训练平台、以及车端/机器人端的图灵芯片和VLA 2.0模型,是同一套架构。研发投入不再是重复的烟囱式投入,而是一次投入、多端复用。
3. 终局的逻辑闭环
这一战略构想,使小鹏的物理AI版图形成了经济上的逻辑闭环:Robotaxi(孵化器): Robotaxi是技术孵化器。它在复杂城市环境中行驶,所收集的关于三维空间理解、动态物体博弈的视觉数据,是训练通用物理AI(VLA 2.0)最宝贵的教材。MONA(造血机): 15万级的MONA平台是商业造血机。它通过B/C双轨模式实现规模化销售,为高昂的AI研发(每年近47.5亿)提供持续的现金流。图灵芯片(连接器): 图灵芯片是硬件连接器。它将Robotaxi、人形机器人、飞行汽车在底层硬件上融合在同一个技术栈中。IRON机器人(第二曲线): 人形机器人是“成本摊销的第二曲线”。它不仅是小鹏的远期愿景,更是其自研芯片在当下能成立的经济合理性所在。
特斯拉的战略与此如出一辙。其FSD软件栈和Optimus人形机器人共享相同的神经网络和Dojo训练平台。Robotaxi(Cybercab)为FSD提供了数据和商业闭环;而FSD的突破,则直接赋予了Optimus“大脑”。
因此,Robotaxi的终局远比“出行”二字宏大。小鹏和特斯拉这两家最具野心的公司,都在进行一场一石二鸟的豪赌。它们利用出行市场(Robotaxi)作为练兵场和提款机,去攻克物理AI的终极高地。在这场竞赛中,百度“萝卜快跑”更专注于出行服务本身的商业化,而小鹏和特斯拉的目光,则早已投向了由人形机器人和通用智能体所定义的下一个物理AI时代。
结论
三种范式争夺下一个万亿美金市场
本报告通过对小鹏、特斯拉、高德和百度“萝卜快跑”的战略解构,揭示了全球自动驾驶竞赛正围绕三种截然不同的哲学范式展开大分流。这场竞赛的胜负,将不仅取决于技术(L4)的实现速度,更取决于其商业模式的可扩展性、盈利能力以及地缘政治的适应性。
第一范式:B2C重资产运营商(代表:百度“萝卜快跑”)
这是最务实的模式。百度聚焦于出行服务这一核心商业场景,通过在武汉等关键城市实现全无人商业化运营,率先探索重资产模式下的单位经济模型和盈利路径。其优势在于先发的规模化运营数据和强大的政策协同。其挑战在于,如何在中国这个竞争激烈的市场中,将20万级别的重资产投入,运营出可持续为正的毛利,并抵御赋能者和网络平台的降维打击。
第二范式:B/C双轨赋能者(代表:小鹏汽车)
这是最灵活的模式。小鹏将自己定位为物理AI时代的核心技术和硬件供应商。它通过15万级的MONA平台赋能B端车队,通过Robo版私享车占领C端品牌高地。它巧妙地规避了自营车队的重资产风险。更重要的是,它通过与高德空间智能的结盟,为纯视觉路线找到了一条“近场感知 + 远场赋能” 的协同路径,这在安全性和可靠性上可能比单打独斗的模式更早实现。
第三范式:C2C分布式网络(代表:特斯拉)
这是最激进的模式。特斯拉的野心是成为垄断性的全球出行网络运营商。它不拥有一辆车,却连接着数百万辆车,通过轻资产的平台模式抽取最高利润。其成功与否,完全系于其能否独立攻克单一全球通用的FSD技术栈。这是一场“all-or-nothing”的豪赌。一旦成功,其Tesla Network的规模效应和盈利能力将是前两种模式无法比拟的;但在此之前,其商业模式始终为零。
最终的分析论点:
我们正处在一个范式共存、路径分化的十字路口。百度“萝卜快跑”的B2C模式,很可能在中国市场率先跑通区域性的商业闭环,成为一个盈利能力强大的公共事业巨头。特斯拉的C2C模式,则定义了这场竞赛的理论上限,它代表了最高的风险和最高的回报,其成败将重塑全球经济格局。而小鹏的赋能者模式,则提供了一种更具韧性和适应性的中间路径。它不仅在Robotaxi市场(B端)和高端消费市场(C端)之间取得了平衡,更通过技术同源的经济学(与IRON人形机器人共享芯片成本),将其竞争的维度从出行扩展到了物理AI的更广阔战场。最终,这场万亿美金市场的争夺战,很可能不会有唯一的胜利者。但在具身智能的终极竞赛中,那些从第一天起就将Robotaxi视为物理AI关键路径的公司——小鹏和特斯拉——无疑已经占据了更具想象空间的未来。