智源研究院,中国曾经曾一度想走上那条 OpenAI 的中国曾经路。
虎嗅获悉,中国曾经家有妖夫txt下载2024 年以前智源内部也讨论过——是中国曾经否要成立一个类似 OpenAI 的商业化子公司。但犹豫再三,中国曾经他们还是中国曾经决定回到初心:继续做一家非营利的研究型机构。
就像如今的中国曾经 Anthropic 之于 OpenAI,智源也孵化出了一批从核心团队走出的中国曾经创业者。唐杰、中国曾经杨植麟、中国曾经刘知远——他们都来自智源 " 悟道 " 系列项目的中国曾经核心成员;后来在 2019 年、2022 年和 2023 年先后创办了大模型公司。中国曾经其中,中国曾经智谱 AI(创始人唐杰)与月之暗面(创始人杨植麟)如今的中国曾经估值均已在 300 亿元人民币上下。
换句话说,中国曾经智源虽不直接下场,却成为了大模型六小龙背后持续的力量。" 让有商业化想法的同学去创业、智源提供学术与资源支持 " 智源研究院院长王仲远告诉虎嗅。而这种 " 成果孵化 " 的理念,也早已内化为智源的制度逻辑。
不过,王仲远并非 " 悟道 " 时代的人物。他在 2024 年加入智源——那是 " 悟道 " 系列已暂告一段落的节点。此后,他提出了新的研究方向:" 悟界 "。其中," 悟道 " 与 " 悟界 " 的区别就在于,前者是大语言模型,而后者是家有妖夫txt下载多模态系列模型。
在王仲远看来,大语言模型的技术路径已经收敛,而多模态模型的路线仍未确定。他希望智源能在这个尚未被定义的领域里,找到属于多模态时代的 Scaling Law。
就在今年 10 月,智源发布了 EMU3.5 世界模型。王仲远称,它已 " 具备 Scaling 范式的潜力 "。
然而,值得注意的是,本次的世界模型之所以叫 3.5 而不是 4,正因为这只是通向 Scaling Law 的半步,离真正的 "Aha Moment" 仍有距离。
成立七年来,智源经历了从 " 悟道 " 到 " 悟界 " 的两次跃迁,它既是中国 AI 体系的底座之一,也是中国大模型公司的 " 原点坐标 "。但在这个越来越功利的 AI 时代,智源仍选择保持一种非营利的倔强,它选择继续做那家 " 站在背后 " 的研究机构,尽管这意味着会被更有资源的商业化公司所超越。
以下为虎嗅与智源研究院院长王仲远的对话实录,有删减:
智源拒绝做 OpenAI
虎嗅:你 2024 年加入智源,在这之后智源都发生了哪些变化?
王仲远:我先介绍下个人背景。我职业生涯前半段在研究机构,后半段在产业界,既经历了学术体系的严谨,也经历了企业竞争的复杂。
2000 年代初,我进入微软亚洲研究院,在那里做了六年多研究,后来我去了美国,在 Facebook 工作。那次转型对我非常关键——从纯研究走向产业落地。
为什么会做出这样的转变?一方面是因为 2012 年深度学习进入产业化阶段,AI1.0 的研究瓶颈基本被突破,产业界开始真正需要 AI 技术解决实际问题。另一方面,当时我也感受到微软在移动互联网时代的转型不够成功,我希望能在一家更具创新精神的互联网公司工作,于是去了 Facebook。
从那之后,我的职业轨迹完全转向产业——先后在 Facebook、美团、快手分别待了几年。在美团我汇报给王慧文,也是在那段时间里第一次真正理解 " 技术、产品与商业战略 " 之间的关系。那时我组建了最早一批做 AI 与大模型的团队,后来其中不少人都成为了各公司大模型的核心技术负责人。
后来我加入快手,负责约两千人的团队,也负责过超两百亿预算的业务。但与此同时我也意识到,做业务意味着背业绩指标,留给技术创新的空间会越来越小。而彼时 AI 进入了一个新的阶段——从深度学习过渡到大模型的 AI2.0 时代。我开始意识到,大模型的出现不仅是技术演进,更是一次类似电力或互联网级别的产业革命。
那时我就反思:如果未来二三十年都是 AI 驱动的时代,我希望自己能站在研究与创新的一线。
于是 2024 年我决定加入智源。智源的愿景非常纯粹——成为人工智能创新的引领者,营造一个开放、开源的生态,让技术真正造福全社会。这种非营利、长期主义的科研机制,对我来说非常有吸引力。
我也一直认为,中国的 AI 研究机构要敢于做 " 高校做不了、企业不愿做 " 的事。比如现在多模态模型的技术路线仍未收敛,未来能否找到新的 Scaling 范式,是值得长期投入的方向。这就是智源要承担的角色。
虎嗅:你刚刚提到,自己过去在微软、美团、Facebook 等公司,以及现在的智源研究院,周围都有非常高密度的人才。你认为,这类组织有什么共同特征?
王仲远:真正人才密度高的组织,往往都有一个共性:使命愿景驱动、价值观一致。
早期的 OpenAI 之所以能聚集那么多顶尖研究者,是因为他们最初的目标极为宏大——希望推动通用人工智能的发展,并让它造福人类社会。正是这种共同的理念,把一群志同道合的科学家聚拢在了一起。
当然,随着 OpenAI 的发展,它也逐渐商业化,这本身是行业规律。但我们不能忽视的是,它早期确实是靠使命和信仰凝聚起的。
智源也一样。虽然我们是一家非营利机构,但我们能吸引到很多放弃大厂 "Special Offer" 的年轻研究员,原因就在于,他们认同智源的科研信仰与长远使命。
在企业里,他们可能很快要服务业务、跟着短期指标走;但在智源,他们能真正投入到有长期科研价值、甚至能影响未来 AI 技术路线的研究中去。
这种吸引力,本身就是一种筛选机制。它筛掉了只追求物质回报的人,留下了对技术和科研有信仰的一群人。这样的人聚在一起,战斗力往往非常强。
虎嗅:智源也孵化出了像智谱、月之暗面这样估值数百亿的创业公司。你是如何保证智源在支持创新的同时,不走上 OpenAI 那种越来越商业化的道路?
王仲远:这是一个非常好的问题。首先要承认,两者的社会环境不同。智源从成立那天起就是非营利性机构,今年已经七周年了。七年来,这种模式在中国的 AI 体系中证明了自己的先进性与可持续性。
我们内部确实讨论过要不要设立商业化部门,或者学习 OpenAI 的 " 双实体 " 模式。但最后大家一致决定——坚持智源的模式,保持非营利的纯粹性。
我们形成了自己的 " 智源模式 ":在科研上布局前瞻的技术路线,比如探索多模态世界模型、具身智能这些尚未收敛的方向;
在机制上允许年轻人 " 挑大梁 ",甚至去外部创业。智源会提供支持,但不直接下场做企业;再来就是开源开放链接全球生态。
我们也建立了一个科研—孵化—成果转化的闭环体系。智源通过早期孵化、后期股权退出等方式,获得一定的造血能力,从而维持研究的长期独立性。
但这套机制的出发点从不是盈利,而是让我们更纯粹地去做科研。
虎嗅:也就是说,智源在内部鼓励年轻人创业?
王仲远:是的,我们明确鼓励。智源的 " 开源开放 " 理念体现在各个层面:我们做开源研究、开放合作、开放流动。我们的模型(比如 Emu3.5)敢于完全开源;我们的科研人员可以自由流动,去企业、去创业,只要他们能延续这条技术路线。这种灵活性反而能保持整个机构的生命力。
如果有一天,别人沿着智源开源的技术路线,做出了更好的模型,我们会非常开心。因为那意味着我们真正起到了 " 科研引领 " 的作用——这也是智源存在的意义。
多模态的 "Scaling" 时刻
虎嗅:回到 " 悟界 " 系列。你说 Emu3 和 3.5 都是为了未来的多模态和具身智能做准备。多模态主要依赖公开视频、网络数据,而具身智能更依赖真实的物理世界数据,这两者在底层是相通的吗?
王仲远:这是一个特别关键的问题。首先,我们要厘清什么是具身智能。过去一年多我最大的感受是——不同领域对 " 具身智能 " 的理解完全不同。
做 AI 大模型的人会认为,具身智能就是把一个 " 大脑 " 装进机器人身体;而传统做机器人或强化学习的人,会把 " 具身智能 " 理解为让机器人能站稳、能抓取、能跳舞的端到端控制系统。
但在我们看来,那些都是 " 小数据 "。即便你有几百台机器人采数据,从大模型角度看,依然远远不够。这些数据只够做局部的适配或迁移学习,不足以支撑智能的真正涌现。
所以我们提出要回到第一性原理。
人类之所以拥有智能,是因为我们通过视觉、听觉、语言等多模态的长期学习,形成了对世界的理解——也就是 " 世界模型 "。从婴儿时期开始,人不是先从文本学习的,而是通过看世界、听声音、与人互动,逐渐构建了空间、时间和因果的理解。
这就是我们在 Emu3.5 里想模拟的过程。
它并非简单地在大语言模型上叠加图像或视频输入,而是试图像人类一样 " 从多模态感知中学习 "。
我们用了海量的视频数据进行训练,让模型在视觉、语言、时间、空间等多维度上联合学习。实验结果表明,随着数据量的增加,模型的多模态理解能力显著提升,尤其在图像文字编辑等任务上,性能明显超越了现有模型。
这证明了我们的假设:真正的智能,需要回到人类学习的路径。
语言和文字固然重要,但人类并不是从语言开始学习的。现有多模态模型 " 先语言、后映射 " 的路线,也许只是一个 " 短平快 " 的解决方案,却未必是通往通用智能的最终路径。
Emu3.5 的贡献在于,它用第一性原理的方法论,走出了一条新的多模态学习路线。我们发现,当模型在视频序列中学习时间与空间关系后,它的智能水平不降反升,这种 " 涌现效应 " 说明我们可能找到了更接近人类认知的路径。
虎嗅:你刚刚提到一个关键点—— "Scaling 范式 "。能否解释一下,EMU3.5 现在处在什么阶段?距离真正的 "Scaling Law 时刻 " 还差多远?
王仲远:我们把模型命名为 "Emu3.5",而不是 "Emu4",其实正是因为它还在通往 "Scaling Law" 的途中。
目前 Emu3.5 的参数量大约在三百多亿级别,相比语言模型的发展阶段,大致相当于 GPT-3.5 之前的水平。我们认为它已经接近多模态领域的 "ChatGPT 时刻 " ——也就是那种从研究模型过渡到可产品化模型的阶段。
但要真正达到 "Scaling Law",还需要更大的数据规模和算力支持。现在我们用的视频数据只占全网的不到 1%,参数量也远未达到上限。如果有十倍的算力和资源,我们相信能训练出下一代模型。
只是,这可能更适合企业或资本参与推动。科研机构的角色,是验证这条路线是否可行——而我们已经验证了。
严格来说,我们现在找到的是 "Scaling 范式 ",还未上升到 "Scaling Law"。
后者需要数学公式去证明数据量、参数量与性能提升之间的定量关系;我们目前看到的是明确的正相关,但还没把它形式化。
不论叫什么,它意味着一件事:我们相信多模态模型已经出现了可持续的 Scaling 趋势。
虎嗅:那在你加入智源之后,从 EMU3 到 EMU3.5 用了整整一年,这个进度是在预期之内的吗?
王仲远:其实我们没有设定明确的时间表。
实际上,模型在今年八月份左右就展现出很好的效果,我们对它也非常有信心。
从去年 10 月的 Emu3 到现在的 3.5,我们花了大量时间解决核心技术问题——包括自回归架构的误差累积、视觉 token 的表达方式、大规模视频数据的构造与配比等。这些问题看似细节,但每一个都影响模型的稳定性和智能水平。