文本引导视频预测大模型的场景动态控制综述
作者:
作者单位:

中国科学院深圳先进技术研究院

作者简介:

通讯作者:

中图分类号:

TP 391.7

基金项目:


A Review of Scene Dynamic Control in Text-Guided Video Prediction Large Models
Author:
Affiliation:

Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences

Fund Project:

  • 摘要
  • |
  • 图/表
  • |
  • 访问统计
  • |
  • 参考文献
  • |
  • 相似文献
  • |
  • 引证文献
  • |
  • 资源附件
  • |
  • 文章评论
    摘要:

    近年来,生成式人工智能的快速发展使得文本驱动的视频预测大模型成为学术界和工业界的研究热点。视频预测生成需处理时间维度的动态性和一致性,要求精准控制场景结构、主体行为、相机运动及语义表达。当前的主要研究难点之一在于如何精确控制视频预测中的场景动态,以实现高质量和语义一致的输出。针对这一问题,研究者提出了几种关键控制方法,包括相机控制、参考视频控制、语义增强和主体特征控制。这些方法旨在提升视频预测的生成质量,确保生成内容既符合历史条件,又能满足用户需求。本文将系统探讨上述四个控制方向的核心思想、优缺点及未来发展方向。

    Abstract:

    In recent years, the rapid development of generative AI has made text-driven video prediction models a hot topic in academia and industry. Video prediction should address temporal dynamics and consistency, requiring precise control of scene structures, subject behaviors, camera movements, and semantic expressions. One major challenge is accurately controlling scene dynamics in video prediction to achieve high-quality, semantically consistent outputs. Researchers have proposed key control methods, including camera control, reference video control, semantic enhancement, and subject feature control. These methods aim to improve generation quality, ensuring outputs align with historical context while meeting user needs. This paper systematically explores the core concepts, advantages, limitations, and future directions of these four control approaches.

    参考文献
    相似文献
    引证文献
引用本文

吴福祥,程俊.文本引导视频预测大模型的场景动态控制综述 [J].集成技术,

Citing format
Wu Fuxiang, Cheng Jun. A Review of Scene Dynamic Control in Text-Guided Video Prediction Large Models[J]. Journal of Integration Technology.

复制
分享
文章指标
  • 点击次数:
  • 下载次数:
  • HTML阅读次数:
  • 引用次数:
历史
  • 收稿日期:2024-12-01
  • 最后修改日期:2024-12-08
  • 录用日期:2024-12-11
  • 在线发布日期: 2024-12-11
  • 出版日期:
文章二维码