技术竞赛升级,视频模型公司更新底层架构
5月19日,智象未来发布图像大模型HiDream-O1-Image-Pro,并将底层模型架构从多模态升级为全模态,统一Transformer架构,实现原始信号端到端全模态对齐。
以往视频生成模型中,图像、视频、人体动作、文本均采用独立模态编码分支分开处理,新模型摒弃分立式编码范式,将上述信息统一纳入单一Transformer架构中,这样的改进能够缓解信息割裂、消除编码误差、提升训推一体效率,而行业此前未能大规模实现的原因在于技术不成熟、全模态同源高质量训练数据严重稀缺等问题。
智象未来CTO姚霆表示,AI行业从垂类模型回归全模态模型的共识,缘于商业约束与技术迭代的双向驱动。企业难以长期承受无商业化回报的投入,需要在模型能力与应用落地间快速闭环;而模型与场景之间,也会形成模型突破、应用落地、反向定义迭代的循环,持续回归架构优化是必然路径。
智象未来CEO梅涛对第一财经记者表示,一级市场在2023年时看重模型效果,2024年底2025年初看重商业化成绩。今年,一二级市场的投资人注意力转向模型能力本身。

在技术侧,梅涛称,OpenAI Sora诞生后,大家发现专业用户通过大量工程化能够实现接近商业化的成果;再到今年字节跳动Seedance 2.0的良好效果,迅速推动受众从早期专业用户及尝鲜用户扩展至半专业用户,甚至普通老百姓。这两点令行业感觉到技术发生飞跃。至于Sora的关停,梅涛认为一个很大的原因就是Sora消耗算力太多,约90%成本花费在预训练上。
东方富海合伙人王兵用“特别疯”来形容今年的人工智能一级市场,他对记者表示,资本市场整体变热的原因有两方面:AI真正进入到工作流程,技术发展推动商业化加速;另外,相较美国市场,投资人发现中国科技资产要便宜很多。两个因素结合起来,使行业内多个项目估值涨了很多。
具体到视频模型赛道,王兵表示,筛选过程中,机构看重的不是前几年的收入或利润,而是技术稀缺性。在不花大钱的前提下,坚定把基础模型做好,只要基模能够位列行业前三,公司就永远有机会。
此外,王兵建议,在算力成本没有大幅下降的情况下,创业公司尽量不要在To C领域直接与巨头公司竞争,这是一个基本判断,因为创业公司烧不起大厂几十亿、几百亿的成本投入。
虽然投入成本高昂,但王兵判断,视频模型行业未来一定会赚钱,原因一方面是算力成本未来将呈指数级下降;其次,头部AI短剧质量已经达到了可以商业化的地步,AI在影视、广告等领域取代人力是不可逆转的趋势。
| 直通车game推荐阅读 | ||
| OKX下载 | 交易所排行 | 比特币平台下载 |


