
【Sand.ai创业历程】据说Sand.ai创始人曹越不太关心自己站在共识的哪一边。“每一代模型我们都在押注一个非共识。” Sand.ai是一家视频生成模型和产品公司成立于2024年1月。曹越在上一段创业“光年之外”戛然而止后很快投入到Sand.ai的创业中做视频生成模型。彼时市场主流是Diffusion路线几乎没人认为曹越选择的自回归Autoregressive路线是正解。【模型发展与突破】2025年初发布基于自回归架构训练的模型Magi - 1后曹越意识到“只有画面是不够的”团队开始探索音画同出。后来Sand.ai成为除Google VEO 3之外最早拿出音画同出模型的团队Magi - 1在Google DeepMind的Physics IQ benchmark上长期保持第一。2025年11月曹越决定带着团队将模型架构从Dense转向MoE“那个时间点国内应该几乎没有什么视频公司在全力推进这件事。”发布音画同出模型Gaga - 1之后发现在Dense架构下继续Scale Up成本会直线上升。视频模型存在成本、速度、效果的不可能三角突破它只能靠研究手段MoE就是答案。2026年Q3Sand.ai将发布新一代视频生成模型采用MoE架构兼顾高效推理与目前开源领域最大的参数规模。曹越表示有信心做到头部水准并且要把它开源给所有人。【融资情况】这家公司刚刚完成两轮合计超亿美元融资投资方包括Look Capital、Lollapalooza Capital王慧文家办、九坤创投、经纬创投、和玉资本MSA Capital、创新工场、襄禾资本、源码资本、中科创星、洪泰基金、今日资本、华业天成、云晖资本、IDG、百度风投等一线机构联合投资。星涵资本担任本轮融资财务顾问。【底层思考与世界模型判断】创业近三年曹越无论是押注自回归路线、做音画同出还是MoE架构底层思考都是同源的“在终局的情况下是每个人都可以去消费非常个性化的内容。那在这个前提下你的内容生产成本一定要下降到很低。”他并不关心自己是否站在市场共识这一边“一旦你过于关心他人的认知大概率是你没有从第一性原理去思考问题。”对于世界模型曹越认为它还在“前GPT时代”数据不够、定义不清、技术路线也远未收敛。世界模型是2026年最说不清道不明的AI概念之一杨立昆、李飞飞等学术巨擘押注不同方向Sora在3月暂时停运国内也涌现多家明星初创不少以前做3D生成、视频生成的公司高调转向世界模型。一方面世界模型寄托人们对未来模型路线的想象另一方面在模型竞争通道越发逼仄的形势下这个词成了fomo情绪的出口。但曹越确定视频模型是通往终局最重要的路径“你要看什么数据距离世界的Observation观测最接近并且体量足够大其实只有视频。”【应用探索与产品策略】在持续推进基础模型训练的同时Sand.ai已经在应用侧落子探索过数字人、视频Agent等产品。今年1月上线的音乐Agent产品VidMuse三个月已经做到千万美元ARR的体量。曹越表示Sand.ai还会继续边做模型边做应用。做模型的公司做垂直整合之后成本和体验都会更好。在视频模型方向上很难只做一个卖API的公司模型和产品必须双轮驱动。Sand.ai是以模型为核心的多产品矩阵打法VidMuse是其中一个探索未来还会有新的产品。模型和产品的目标可能有夹角在创业公司里可能更好解决。现阶段的产品策略是找泛AI视频赛道当下时间点有大杠杆的事情。选了Agent方向VidMuse今年年初上线两个月做到1000万美金ARR说明这个方向的商业化是成立的。用户反馈有机会帮助模型的后训练产品也不局限于只调用自己的模型收集的数据反馈能让自己的模型效果更好。视频领域过去两年一直是模型牵引产品模型每解锁一个能力产品侧就少搭一层脚手架。开源模型在持续贡献价值开源的MagiAttention算子库现在被国内几乎所有多模态模型团队使用英伟达官方也推荐用它训多模态模型。【行业竞争与格局】曹越很少思考什么是共识、什么是非共识只思考什么是本质的、什么是对的。Seedance 2.0的爆发证明了多镜头叙事是重要的Sora在多主体参考、多镜头叙事的细节效果上做得不够而Seedance 2.0把这些维度补齐吃到了一波红利。视频模型的垄断程度不会比语言模型更高。现阶段视频和语言模型领先窗口大概在两三个月一个模型在某个时间切片上SOTA呈现垄断状态正常但行业很快会追上最终牌桌上会留下三五家一起分市场。OpenAI关停Sora是一次合理的战略收缩一是要上市得阶段性优化短期目标二是在Coding上落后把算力平移到Codex模型中更可能撑起上市业绩。中国能够快速在视频模型上做到世界Tier 1跟起步早晚有关视频模型国内外起步时间差距不大且国内短视频生态更活跃加速了模型的应用落地。在此提醒相关从业者需密切关注视频模型的发展动态把握行业机遇。