万维读者网 > 中国瞭望 > 正文  

中国也有Sora同款训练架构公司

www.creaders.net | 2024-03-13 21:01:48  36氪 | 0条评论 | 查看/发表评论

全球首家发布Sora同款底层架构的清华系模型公司,近期完成了新一轮融资。投资名单中,也出现了大模型独角兽智谱AI的身影。

36氪获悉,近日多模态AI模型公司生数科技完成新一轮数亿元融资。该轮融资由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲跟投。据介绍,融资主要用于多模态基础大模型的研发迭代、应用产品创新及市场拓展。

2023年成立的生数科技,在创立当年已经完成了近亿元的天使轮融资。基于自主研发的多模态通用大模型,生数科技对外提供To B的MaaS(模型即服务)服务和To C的应用产品。

生数科技的核心团队成员,出自清华大学人工智能研究院。联合创始人兼CEO唐家渝出身清华大学自然语言处理实验室,曾任瑞莱只会副总裁、腾讯优图实验室高级产品经理。CTO鲍凡在清华大学计算机系获得博士学位,在加速推理、可控生成、基础架构、训练策略等方面已发表十余篇顶会论文。首席科学家为清华大学计算机系人工智能实验室主任、智源研究院首席科学家朱军。

可以说,2023年是国内大语言模型狂飙的元年。2024年,OpenAI携可生成60秒视频的模型Sora再次登场,立刻带动了国内AI行业对视频、音频、图像、3D等多模态生成技术的探索。

目前,生数科技自研的多模态通用大模型,已经初步具备短视频的生成能力。

但Sora的空降,也让生数科技立刻调整了战略。以往AI生成视频的长度天花板,是Runway Gen-3的18秒,如今Sora将天花板抬高到了60秒。

唐家渝坦言,长视频生成需要高昂的入场费,A100、A800的卡可能要上万张。资源投入的压力,让团队并没有立刻投入长视频生成的训练。如今长视频生成的路径,已经被OpenAI验证,生数科技决定提高突破长视频能力的优先级。

生数团队对多模态模型的探索最早开始于2013年。在清华实验室阶段,团队早期成员就开始了生成式模型理论基础、高效学习和推理算法,以及音乐生成、人脸合成等多方面的研究工作。

中国也有Sora同款训练架构公司

短视频生成效果。图源:生数科技

自2020年扩散模型应用于图像生成领域以来,生数团队也是业内首批开展扩散概率模型基础理论和算法研究的队伍,于ICML、NeurIPS、ICLR等顶会发表扩散概率模型领域相关论文20余篇。团队先后推出自研的无训练推理框架Analytic-DPM、全球最快采样算法DPM-Solver,被DALL-E 2、Stable Diffusion等国际项目所采用。

2022年9月,生数科技就发布了9.5亿参数规模的U-ViT网络架构,这也是全球首个Diffusion Transformer架构——1个月后,Stable Diffusion发布了初代DiT架构U-Net,后被应用于Sora的研发。

依托于U-ViT架构,生数科技推出了基于统一的多模态多任务框架的通用基础大模型,可实现图像、视频、3D多种模态的生成。

比如在3D生成的效果上,生数科技模型可以将生成速度压缩到10秒级。与此同时,模型还支持360度全景4D动画生成,以及对3D生成场景的编辑。

在3D等多模态训练数据稀缺的当下,据唐家渝介绍,生数科技多模态模型的训练数据主要来源于两块:互联网上大量公开的数据,通过向版权方购买的私有数据,两者共同完善训练数据的丰富性。

相较于同等参数规模的语言模型,多模态模型的训练,前期的投入更为高昂。为了节省成本,提高训练效率,生数科技构建了完整的工程与数据体系,并在大规模GPU集群上实现更高效、低成本、强兼容的模型训练。唐家渝表示,去年团队花了近一个月的时间做完了华为昇腾训练架构的适配,芯片的国产替代帮助节省了不少成本。

目前,生数科技采取的是To B和To C两条腿走路的商业化模式:对B端提供MaaS服务,对C端提供多模态生成应用。

目前,生数科技已经与多家游戏公司、个人终端厂商、互联网平台等B端机构展开合作。比如在和某头部车企的合作中,生数科技将图像生成能力应用在了车载大屏的壁纸生成。

在C端产品的布局上,生数科技在2023年上线了两款工具型产品:视觉创意设计平台PixWeaver、3D资产创建工具VoxCraft。先面向海外市场推出的VoxCraft,在辅助3D游戏角色开发场景中经过了市场的验证,通过基于VoxCraft生成粗模、底模,游戏开发效率能够提升30%

唐家渝认为,追赶Sora对模型公司而言,仍然拥有巨大的挑战。这份挑战不仅来源于训练数据的数量和质量,也在于对多模态训练数据的处理方式——在OpenAI披露更多训练细节之前,Sora的数据集仍然是个“黑箱”。但乐观的是,多模态模型,已经到了可以走出实验室和机房,落地到更多应用场景的阶段。

以下是投资人评价:

启明创投合伙人周志峰

如今的大模型已经从原来的纯语言模态,逐步走向多模态的探索。生数科技从去年成立之初就选择多模态赛道,是国内这个领域起步最早、积累最深的团队,大量工作被OpenAI、Stable Diffusion团队引用。生数科技推出的U-ViT架构作为全球Diffusion Transformer架构的首创,不仅具有前瞻的技术视野,更是经过了大规模训练的验证,展现出强大的技术可行性。这种兼具开拓性和成熟度的核心工作,让我们对生数科技在多模态大模型方向的长期发展充满信心。

今年过年期间,Sora的亮相不仅展示出视频生成技术的巨大潜力,而且增强了人们对于多模态生成未来发展的信心。随着Scaling Law在视频生成领域的进一步加强,我们预期多模态技术将引领一系列令人瞩目的创新和令人惊叹的成果。在这一过程中,生数科技无疑将扮演一个关键的推动角色!

达泰资本合伙人姚承

在当下大模型赛道的竞争中,生数科技在多方面都脱颖而出。不仅敏锐洞察到多模态的前沿趋势,而且作为国内最早投身多模态赛道的公司,生数科技在过去短短一年的时间内就取得了令人瞩目的成绩单,从基础设施、模型算法、数据资源到场景化应用积累了独特的竞争优势。同时生数科技也是国内极少拥有“从零开始、自主训练”大模型能力的公司,具备深厚理论基础和实践经验,拥有突破主流框架技术难点和瓶颈的技术实力,因此我们坚持在人工智能领域的布局,并对生数科技未来发展充满期待。

智谱AI CEO 张鹏

智谱AI CEO 张鹏表示:作为清华系的创业团队,生数科技是国内最早开展深度生成式AI研究的组织之一。从对抗生成网络到扩散模型,生数科技敏锐洞察到融合架构的重要性,将其作为原生多模态的技术核心和重要支撑。智谱AI很高兴同生数科技展开深入合作,助力生数科技多模态核心技术研发与商业化探索,一同推动多模态大模型技术落地应用,更好惠及千行百业。

华兴资本董事总经理、华兴资本集团联席总裁 王力行

我们身为生数科技的亲密战友,见证了公司的厚积薄发和无限潜力。作为全球顶尖的研发团队,生数科技在基础理论架构和工程实现等层面展现出了超群的创新力和前瞻性,率先提出U-ViT架构并一以贯之,引领了多模态行业的发展;同时团队以极强的执行力和落地速度,陆续在图像、3D、视频生成等领域贡献了艺术级的作品。作为未来数字世界的天才建筑师,生数将率先攻克多模态生成瓶颈,把人类的创造力和艺术构想一一落为现实,始于科学、忠于创新、迈向未来。

   0


24小时新闻排行榜 更多>>
1 华尔街大鳄警告 它是一个“巨大的泡沫”
2 复旦研究生珠峰地区登山死亡 真相更令人愤
3 突发:全球最大光刻机巨头爆雷 股价跳水
4 火箭军又将大地震?习四个字批示
5 惊曝:俄乌签署协议最后一刻,乌方突然退出

48小时新闻排行榜 更多>>
1 北京扣动扳机 人民币贬值开始了
2 撤出中国,苹果跑的也太快了
3 铁拳再现!中国将禁止公布这些数据
4 不好,爆雷越来越密集了
5 中共情色档案中的薄熙来情妇有名有姓
6 重庆,又一次刷新了底线
7 这一幕,终于在深圳上演了
8 拜登祭出重招 堵上北京这个漏洞
9 华尔街大鳄警告 它是一个“巨大的泡沫”
10 小学生剩下的日子全靠它了
热门专题
1
以哈战争
6
中共两会
11
秦刚失踪
2
中美冷战
7
台湾大选
12
火箭军悬案
3
乌克兰战争
8
李克强猝逝
13
台海风云
4
万维专栏
9
中国爆雷
14
战狼外交
5
美国大选
10
李尚福出事
15
普里戈津
一周博客排行 更多>>
1 习近平一盘神秘大棋成就了大日 文庙
2 周傥:美国迫在眉睫的危险 万维网友来
3 速战速决 伊朗真乃大丈夫也 体育老师
4 康生的儿子死了/漂亮国的象征 体育老师
5 达唐:故宫博物院遭公开举报 万维网友来
6 谁是中国人? 谢盛友文集
7 日本电影《追捕》中的杜丘和真 弓长贝占郎
8 现代战争目的:摧毁战争意志 施化
9 前瞻:习马再相会 花蜜蜂
10 我宁在纽约行乞,也不在上海做 恨中
一周博文回复排行榜 更多>>
1 川普就是美国的毛泽东 右撇子
2 前瞻:习马再相会 花蜜蜂
3 警惕有人把民主党与共和党的关 karkar
4 美国为何选择这个时候公布中共 山蛟龙
5 周傥:美国迫在眉睫的危险 万维网友来
6 习近平一盘神秘大棋成就了大日 文庙
7 现代战争目的:摧毁战争意志 施化
8 抖音在大选年被禁的可能性不大 随意生活
9 去......化 山蛟龙
10 康生的儿子死了/漂亮国的象征 体育老师
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2024. CyberMedia Network/Creaders.NET. All Rights Reserved.