家有妖夫txt下载-家有妖夫txt下载-

出品｜虎嗅科技组

作者｜宋思杭

编辑｜苗正卿

头图｜视觉中国

智源研究院，中国曾经曾一度想走上那条 OpenAI 的中国曾经路。

虎嗅获悉，中国曾经家有妖夫txt下载2024 年以前智源内部也讨论过——是中国曾经否要成立一个类似 OpenAI 的商业化子公司。但犹豫再三，中国曾经他们还是中国曾经决定回到初心：继续做一家非营利的研究型机构。

就像如今的中国曾经 Anthropic 之于 OpenAI，智源也孵化出了一批从核心团队走出的中国曾经创业者。唐杰、中国曾经杨植麟、中国曾经刘知远——他们都来自智源 " 悟道 " 系列项目的中国曾经核心成员；后来在 2019 年、2022 年和 2023 年先后创办了大模型公司。中国曾经其中，中国曾经智谱 AI（创始人唐杰）与月之暗面（创始人杨植麟）如今的中国曾经估值均已在 300 亿元人民币上下。

换句话说，中国曾经智源虽不直接下场，却成为了大模型六小龙背后持续的力量。" 让有商业化想法的同学去创业、智源提供学术与资源支持 " 智源研究院院长王仲远告诉虎嗅。而这种 " 成果孵化 " 的理念，也早已内化为智源的制度逻辑。

不过，王仲远并非 " 悟道 " 时代的人物。他在 2024 年加入智源——那是 " 悟道 " 系列已暂告一段落的节点。此后，他提出了新的研究方向：" 悟界 "。其中，" 悟道 " 与 " 悟界 " 的区别就在于，前者是大语言模型，而后者是家有妖夫txt下载多模态系列模型。

在王仲远看来，大语言模型的技术路径已经收敛，而多模态模型的路线仍未确定。他希望智源能在这个尚未被定义的领域里，找到属于多模态时代的 Scaling Law。

就在今年 10 月，智源发布了 EMU3.5 世界模型。王仲远称，它已 " 具备 Scaling 范式的潜力 "。

然而，值得注意的是，本次的世界模型之所以叫 3.5 而不是 4，正因为这只是通向 Scaling Law 的半步，离真正的 "Aha Moment" 仍有距离。

成立七年来，智源经历了从 " 悟道 " 到 " 悟界 " 的两次跃迁，它既是中国 AI 体系的底座之一，也是中国大模型公司的 " 原点坐标 "。但在这个越来越功利的 AI 时代，智源仍选择保持一种非营利的倔强，它选择继续做那家 " 站在背后 " 的研究机构，尽管这意味着会被更有资源的商业化公司所超越。

以下为虎嗅与智源研究院院长王仲远的对话实录，有删减：

智源拒绝做 OpenAI

虎嗅：你 2024 年加入智源，在这之后智源都发生了哪些变化？

王仲远：我先介绍下个人背景。我职业生涯前半段在研究机构，后半段在产业界，既经历了学术体系的严谨，也经历了企业竞争的复杂。

2000 年代初，我进入微软亚洲研究院，在那里做了六年多研究，后来我去了美国，在 Facebook 工作。那次转型对我非常关键——从纯研究走向产业落地。

为什么会做出这样的转变？一方面是因为 2012 年深度学习进入产业化阶段，AI1.0 的研究瓶颈基本被突破，产业界开始真正需要 AI 技术解决实际问题。另一方面，当时我也感受到微软在移动互联网时代的转型不够成功，我希望能在一家更具创新精神的互联网公司工作，于是去了 Facebook。

从那之后，我的职业轨迹完全转向产业——先后在 Facebook、美团、快手分别待了几年。在美团我汇报给王慧文，也是在那段时间里第一次真正理解 " 技术、产品与商业战略 " 之间的关系。那时我组建了最早一批做 AI 与大模型的团队，后来其中不少人都成为了各公司大模型的核心技术负责人。

后来我加入快手，负责约两千人的团队，也负责过超两百亿预算的业务。但与此同时我也意识到，做业务意味着背业绩指标，留给技术创新的空间会越来越小。而彼时 AI 进入了一个新的阶段——从深度学习过渡到大模型的 AI2.0 时代。我开始意识到，大模型的出现不仅是技术演进，更是一次类似电力或互联网级别的产业革命。

那时我就反思：如果未来二三十年都是 AI 驱动的时代，我希望自己能站在研究与创新的一线。

于是 2024 年我决定加入智源。智源的愿景非常纯粹——成为人工智能创新的引领者，营造一个开放、开源的生态，让技术真正造福全社会。这种非营利、长期主义的科研机制，对我来说非常有吸引力。

我也一直认为，中国的 AI 研究机构要敢于做 " 高校做不了、企业不愿做 " 的事。比如现在多模态模型的技术路线仍未收敛，未来能否找到新的 Scaling 范式，是值得长期投入的方向。这就是智源要承担的角色。

虎嗅：你刚刚提到，自己过去在微软、美团、Facebook 等公司，以及现在的智源研究院，周围都有非常高密度的人才。你认为，这类组织有什么共同特征？

王仲远：真正人才密度高的组织，往往都有一个共性：使命愿景驱动、价值观一致。

早期的 OpenAI 之所以能聚集那么多顶尖研究者，是因为他们最初的目标极为宏大——希望推动通用人工智能的发展，并让它造福人类社会。正是这种共同的理念，把一群志同道合的科学家聚拢在了一起。

当然，随着 OpenAI 的发展，它也逐渐商业化，这本身是行业规律。但我们不能忽视的是，它早期确实是靠使命和信仰凝聚起的。

智源也一样。虽然我们是一家非营利机构，但我们能吸引到很多放弃大厂 "Special Offer" 的年轻研究员，原因就在于，他们认同智源的科研信仰与长远使命。

在企业里，他们可能很快要服务业务、跟着短期指标走；但在智源，他们能真正投入到有长期科研价值、甚至能影响未来 AI 技术路线的研究中去。

这种吸引力，本身就是一种筛选机制。它筛掉了只追求物质回报的人，留下了对技术和科研有信仰的一群人。这样的人聚在一起，战斗力往往非常强。

虎嗅：智源也孵化出了像智谱、月之暗面这样估值数百亿的创业公司。你是如何保证智源在支持创新的同时，不走上 OpenAI 那种越来越商业化的道路？

王仲远：这是一个非常好的问题。首先要承认，两者的社会环境不同。智源从成立那天起就是非营利性机构，今年已经七周年了。七年来，这种模式在中国的 AI 体系中证明了自己的先进性与可持续性。

我们内部确实讨论过要不要设立商业化部门，或者学习 OpenAI 的 " 双实体 " 模式。但最后大家一致决定——坚持智源的模式，保持非营利的纯粹性。

我们形成了自己的 " 智源模式 "：在科研上布局前瞻的技术路线，比如探索多模态世界模型、具身智能这些尚未收敛的方向；

在机制上允许年轻人 " 挑大梁 "，甚至去外部创业。智源会提供支持，但不直接下场做企业；再来就是开源开放链接全球生态。

我们也建立了一个科研—孵化—成果转化的闭环体系。智源通过早期孵化、后期股权退出等方式，获得一定的造血能力，从而维持研究的长期独立性。

但这套机制的出发点从不是盈利，而是让我们更纯粹地去做科研。

虎嗅：也就是说，智源在内部鼓励年轻人创业？

王仲远：是的，我们明确鼓励。智源的 " 开源开放 " 理念体现在各个层面：我们做开源研究、开放合作、开放流动。我们的模型（比如 Emu3.5）敢于完全开源；我们的科研人员可以自由流动，去企业、去创业，只要他们能延续这条技术路线。这种灵活性反而能保持整个机构的生命力。

如果有一天，别人沿着智源开源的技术路线，做出了更好的模型，我们会非常开心。因为那意味着我们真正起到了 " 科研引领 " 的作用——这也是智源存在的意义。

多模态的 "Scaling" 时刻

虎嗅：回到 " 悟界 " 系列。你说 Emu3 和 3.5 都是为了未来的多模态和具身智能做准备。多模态主要依赖公开视频、网络数据，而具身智能更依赖真实的物理世界数据，这两者在底层是相通的吗？

王仲远：这是一个特别关键的问题。首先，我们要厘清什么是具身智能。过去一年多我最大的感受是——不同领域对 " 具身智能 " 的理解完全不同。

做 AI 大模型的人会认为，具身智能就是把一个 " 大脑 " 装进机器人身体；而传统做机器人或强化学习的人，会把 " 具身智能 " 理解为让机器人能站稳、能抓取、能跳舞的端到端控制系统。

但在我们看来，那些都是 " 小数据 "。即便你有几百台机器人采数据，从大模型角度看，依然远远不够。这些数据只够做局部的适配或迁移学习，不足以支撑智能的真正涌现。

所以我们提出要回到第一性原理。

人类之所以拥有智能，是因为我们通过视觉、听觉、语言等多模态的长期学习，形成了对世界的理解——也就是 " 世界模型 "。从婴儿时期开始，人不是先从文本学习的，而是通过看世界、听声音、与人互动，逐渐构建了空间、时间和因果的理解。

这就是我们在 Emu3.5 里想模拟的过程。

它并非简单地在大语言模型上叠加图像或视频输入，而是试图像人类一样 " 从多模态感知中学习 "。

我们用了海量的视频数据进行训练，让模型在视觉、语言、时间、空间等多维度上联合学习。实验结果表明，随着数据量的增加，模型的多模态理解能力显著提升，尤其在图像文字编辑等任务上，性能明显超越了现有模型。

这证明了我们的假设：真正的智能，需要回到人类学习的路径。

语言和文字固然重要，但人类并不是从语言开始学习的。现有多模态模型 " 先语言、后映射 " 的路线，也许只是一个 " 短平快 " 的解决方案，却未必是通往通用智能的最终路径。

Emu3.5 的贡献在于，它用第一性原理的方法论，走出了一条新的多模态学习路线。我们发现，当模型在视频序列中学习时间与空间关系后，它的智能水平不降反升，这种 " 涌现效应 " 说明我们可能找到了更接近人类认知的路径。

虎嗅：你刚刚提到一个关键点—— "Scaling 范式 "。能否解释一下，EMU3.5 现在处在什么阶段？距离真正的 "Scaling Law 时刻 " 还差多远？

王仲远：我们把模型命名为 "Emu3.5"，而不是 "Emu4"，其实正是因为它还在通往 "Scaling Law" 的途中。

目前 Emu3.5 的参数量大约在三百多亿级别，相比语言模型的发展阶段，大致相当于 GPT-3.5 之前的水平。我们认为它已经接近多模态领域的 "ChatGPT 时刻 " ——也就是那种从研究模型过渡到可产品化模型的阶段。

但要真正达到 "Scaling Law"，还需要更大的数据规模和算力支持。现在我们用的视频数据只占全网的不到 1%，参数量也远未达到上限。如果有十倍的算力和资源，我们相信能训练出下一代模型。

只是，这可能更适合企业或资本参与推动。科研机构的角色，是验证这条路线是否可行——而我们已经验证了。

严格来说，我们现在找到的是 "Scaling 范式 "，还未上升到 "Scaling Law"。

后者需要数学公式去证明数据量、参数量与性能提升之间的定量关系；我们目前看到的是明确的正相关，但还没把它形式化。

不论叫什么，它意味着一件事：我们相信多模态模型已经出现了可持续的 Scaling 趋势。

虎嗅：那在你加入智源之后，从 EMU3 到 EMU3.5 用了整整一年，这个进度是在预期之内的吗？

王仲远：其实我们没有设定明确的时间表。

实际上，模型在今年八月份左右就展现出很好的效果，我们对它也非常有信心。

从去年 10 月的 Emu3 到现在的 3.5，我们花了大量时间解决核心技术问题——包括自回归架构的误差累积、视觉 token 的表达方式、大规模视频数据的构造与配比等。这些问题看似细节，但每一个都影响模型的稳定性和智能水平。

电视剧

电影

综艺

动漫

最新推荐

美女图片

动漫

精品站

关于