据媒体报道,新书9月24日报道,字节跳动正式宣布进入人工智能视频生成。发布豆包视频生成-PixelDance、豆包视频生成-Seaweed两大模型发布,面向企业市场开启邀测。
“豆包视频生成”大型模型凭借其出色的语义理解能力、复杂交互画面的准确捕捉和多镜头切换下的内容一致性,成功跻身行业先进水平。
该模型不仅能深入理解和响应复杂的指令,驱动不同角色完成一系列精细的动作互动,而且能达到细节处理的极端,从人物的外观、服装的微妙变化到头饰的准确呈现,它们可以在不同的镜子角度保持高度一致,就像真实的拍摄一样自然流畅。
值得一提的是,“豆包视频生成”DiT模型是基于字节跳动自主开发的(Dynamic Integration Transformer)通过高效的DiT集成计算单元,实现了视频在大动态场景与多种运镜之间的无缝切换。这一技术突破赋予了视频变焦、环绕、平摇、缩放、目标跟随等多镜头语言能力,使视频创作更加自由灵活,满足了创作者对视觉表达的无限想象。
为进一步提高视频创作的专业性和观赏性,“豆包视频生成”团队还创新地采用了新设计的扩散模型训练方法。
这种方法有效地克服了多镜头切换过程中保持主体、风格和氛围一致性的技术问题,确保视频的整体氛围和细节在镜头切换时仍然和谐统一,给观众带来更身临其境的观看体验。
目前,“豆包视频生成”该系列模型在即梦AI内测版中开启了小规模测试,旨在收集宝贵的用户反馈,不断优化产品性能。
[本文结尾]如需转载,请务必注明出处:新书
负责编辑:鹿角
文章内容报告
还没有评论,来说两句吧...