即梦AI年末“交卷”，字节跳动的文生影像野心能否照进现实？-软件产品-虎科技

即梦AI年末“交卷”，字节跳动的文生影像野心能否照进现实？

时间：2025-01-02 11:42 来源：ITBEAR作者：钟景轩

在2024年的尾声，文生影像领域迎来了一场前所未有的技术盛宴。国内外各大科技巨头纷纷亮出杀手锏，其中，OpenAI的Sora、谷歌的Veo 2以及背靠字节跳动的即梦AI尤为引人注目。

Sora以最高1080P的分辨率、20秒的时长以及创新的故事板、Remix等功能，率先点燃了这场技术竞赛的战火。然而，谷歌随后发布的Veo 2模型，凭借在指令遵循、镜头控制以及画面质量上的卓越表现，再次刷新了人们的认知。与此同时，即梦AI也在激烈的市场竞争中崭露头角，其背靠字节跳动强大的短视频基因，短短数月内便经历了数次迭代，成功解决了AI生成影像中的中文嵌入难题。

在这场技术较量中，即梦AI凭借其独特的“智能参考”功能，让用户能够通过一句简单的话语实现零门槛改图，并精准收获预期效果。例如，用户只需输入“兵马俑喝奶茶”的prompt，即梦AI便能在几秒钟内将一张兵马俑的照片转化为左手握奶茶的图片，且图片其余部位保持原样，无需额外操作。这一功能不仅满足了C端用户在社交媒体制图方面的需求，也为创作者提供了极大的便利，降低了使用成本，提高了创作效率。

不仅如此，即梦AI还上线了“文字海报”功能，用户只需输入一句话即可生成中/英文海报，并可在后续进行涂抹修改错字。这一功能不仅实现了简单快速的排版设计，更在AI图像生成中中文难以生成的问题上取得了突破。同时，即梦的模型还能根据提示词自动完善文案并补充画面细节，在控制图片中的文字生成方面开创了行业先河。

在视频生成方面，即梦AI同样表现出色。其S&P双模型采用了DiT架构，其中S2.0 pro模型在首帧一致性和画质上表现出色，而P2.0 pro模型则具有较高的“提示词遵循能力”。用户输入复杂的提示词，如镜头切换、人物连续动作、情绪演绎、运镜控制等，模型都能理解并精准生成视频。

在实测中，即梦AI的P2.0 pro模型在镜头切换、人物动作以及运镜控制等方面都展现出了卓越的性能。例如，输入一张图和prompt，即可生成多镜头视频，实现全景、中景、特写等镜头切换，并保持视频与原图风格、场景以及人物的高度一致。同时，模型还能演绎哭、笑、悲伤、生气等单一情绪以及“哭中带笑”等复杂情绪，为用户提供了丰富的创作空间。

即梦AI在B端场景的应用同样具有广阔的前景。商品展示类的广告短片、红人口播短视频等都可以通过即梦AI的模型能力实现。即梦还上线了“对口型”功能，用户只需提供一张图片、一段文字或音频，即可生成对口型视频，人物表情、神态以及服饰、配饰等细节都能达到动态逼真的效果。

在12月18日的即梦发布会上，剪映业务负责人张楠表示，视觉模型将极大改变人们观看视频的方式。用户将不再是被动观看，而是可以在任何时刻介入、参与和影响剧情走向或观看不同的故事分支。这一观点不仅展现了即梦AI在技术创新方面的雄心壮志，也预示着未来视频内容创作和观看方式的变革。

剪映业务负责人张楠

作为字节跳动在生成式AI领域的重要布局，即梦AI不仅拥有优越的资源禀赋和算力资源，还具备独特的生态站位优势。抖音作为字节跳动旗下的短视频平台，需要源源不断的内容支持。即梦AI可以与剪映结合，引入AI生产力工具后将内容反哺给抖音，为抖音提供更加丰富多样的内容创作方式。

更多>同类内容

蔚来萤火虫“三眼灯”设计惹争议，李斌：内	长虹百寸巨幕电视100Q10T Max上市，XDR Min
瓦尔基里VK03-M机箱预售，6.2英寸屏+9风扇	短剧热度新榜揭晓：《贺总，你家萌宝五行缺