生成式AI专题报告:下一颗最闪亮的星视频+引擎精选版.docx
《生成式AI专题报告:下一颗最闪亮的星视频+引擎精选版.docx》由会员分享,可在线阅读,更多相关《生成式AI专题报告:下一颗最闪亮的星视频+引擎精选版.docx(32页珍藏版)》请在三一文库上搜索。
1、天风,孔蓉、李泽宇)1、生成式AI在视频/3D/游戏等领域的 渗透加速生成算法模型不断突破创新,下游应用场景不断拓展基础的生成算法模型不断突破创新,基础能力日新月异,从图像向视频和3D扩 展,更广泛地应用于下游应用场景。生成对抗网络(GAN)是早期最著名的生 成模型之一,尽管在图像生成上产生了卓越的效果,但其训练常常受到梯度消 失和模式崩 溃等问题的影响。与GAN相比,扩散模型(DiffUSiOn Model)只 需要训练“生成器”,不需要训练别的网络(判别器、后验分布 等),训练时 仅需模仿一个简单的前向过程对应的逆过程,实现简练过程的简化。扩散模型 相对GAN来说具有更灵活的模型架构和更
2、精确的对数似然计算,生成图像质量 明显优于GAN,已经成为目前最先进的图像生成模型。此前扩散模型主要适用于生成2D图像,23年Runway的最新研究成果将扩散模 型扩展到视频领域,在未加字幕的视频和配对的文本-图像数据的大规模数据 集上训练出视频扩散模型。NeRF (神经辐射场)的出现为3D场景生成带来了 新的可能性,进一步拓宽生成算法领域下游的应用场景。NeRF (Neural Radiance Field)是一种基于神经网络的3D重建技术,不同于传统的三维重 建方法把场景表示为点云、网格、体素等显式的表达,NeRF将场景建模成一 个连续的5D辐射场隐式存储在神经网络中,输入多角度的2D图像
3、通过训 练得到神经辐射场模型,根据模 型渲染出任意视角下的清晰照片。Runway:生成式Al内容平台,GenT可实现用文字和图像从现有视频中生成新 视频RUnWay是一家生成式Al内容平台,致力于让所有人都能进行内容创作。RUnWay创 立于2018年,总部位于纽约,提供图片、视频领域的生成式Al服 务。RUnWay得到众 多资本青睐,获得谷歌领投的D轮融资。创立以来, RUnWay 已获得 FeIiCis、COatUe、Amplify Lux COnlPOUnd 等顶级投资机构 投资。23年6月,RUnWay获得由谷歌领 投的1亿美元的D轮融资,这笔融资 交易包括三年内7500万美元的谷歌
4、云积分和其他服务,估值达到15亿美元。主要产品为Gen-I和Ge-2, Gen-I可实现用文字和图像从现有视频中生成新视 频,Gen-2可实现文字生成视频功能。Gen-1:不需要灯光、相机和动捕,通 过将图像或文本提示的结构和风格应用于源视 频的结构,逼真且一致地合成新 视频,且具有表现力、电影感和一致性。Gen-1提供给用户五种不同的视频制 作模式:1)Stylization:将任何图像或提示的风格转移到视频的每一帧; 2) Storyboard:将模型变成完全风格化和动画的渲染。3) Mask:隔离视频中 的主题并使用简单的文本提示对其进行修改;4) Render:通过应用输入图像 或提示
5、将无纹理渲染变成逼真的输出;5) Customization:通过自定义 模型 以获得更高保真度的结果,释放Gen-I的全部功能。Gen-I的性能优势:基 于用户研究,GEN-I的结果优于现有的图像到图像和视频到 视频的转换方法, 比 Stable Diffusion 1. 5 提升 73.83%,比 Text2Live 提升 88. 24%oGen-2是一个多模态的人工智能系统,可以用文字、图像或视频片段生成新颖 的视频。Gen-2在GenT的基础上迭代,保留通过将图像或文本提示的结构和 风格应用于源视 频的结构合成新视频的功能,新增了只用文字便可生成视频的 的功能。Gen-2在GenT的
6、五种邛频制作模式上新增了三项新的模式:1) Text to Video:仅 通过文本提示合成任何风格的视频;2) Text + Image to Video:使用图像和文本提 示生成视频;3) Image to Video:用一张图片生成 视频(变体模式)。Gen-2已于2023年6月上线,用户可以通过网页端和移 动端APP免费体验文字生成视 频的功能。收费模式上,RUnWay采用订阅模 式,分为Standard和PrO两个版本:Standard 15美元/月;Pro 35美元/ 月。订阅版本提供更高的CreditS (制作视频消耗credits) 更长的视频长 度、更高的分辨率等。Luma
7、AI: 3D内容解决方案平台,基于NeRF上线文字转3D和视频转3D功能Luma AI是一家3D内容解决方案平台。Luma AI创立于2021年,总部位于加 州。公司创始人在3D视觉、机器学习、实时图形学上有所建树:CEO & Cofounder Amit Jain曾于苹果任职,在3D计算机视觉、摄像头、ML、系统工 程和深度技术产品方面有者丰富经验;CTO & Cofounder Alex YU致力于推动 神经渲染和实时图形领域的发展,研究成果包括Plenoxels PlenOctrees和 PixelNeRFo LUmaAI深耕3D领域,也发布多项3D生成产品。22年10月开放 网页版LU
8、ma; 22年12月推出文生3D模型功能;23年1月iOS版APP开始支 持NeRF Reshoot; 23年2月推出网页版全体积NeRF渲染器;23年3年iOS版 APP支持AR预览,同月推出视频转3D API。23年4月发布LUmaUnreaI Engine alpha,帮助开发者在Unreal 5中进行完全体积化的渲染,无需对几何 结构或材质进行修补。主要产品:Luma App:目前只推出iOS客户端,可以通过iPhone上传视频, 基于NeRF生成3D场景。Luma App支持导入视频,以及引导模式和自由模式 三种:导入模式,和Web模式功能类似,对设备和视频理论上要求最低;引导 模式
9、需要360度拍摄,APP将具体提示框提醒拍摄视角、拍摄位置;自由模 式,支持非360度(部分视角)拍摄,APP不会给出明确提示框,需要尽可能 拍摄多个角度。网页端:目前集成了三大主流功能:网页版LUma、文字转3D 模型、视频转3D APIo网页版Luma:上传照片、视频来进行三维重建,网页 版可以上传更大的文件,目前视频和图片(ZIP压缩包)体积最大限制5GB; 文字转3D模型:输入文字描述生成对应的3D模型。视频转3D API:效果基本 和网页版一致。收费模式为按次收费,转换一个视频费用为1美元,转换时间 在30分钟左右。Unity:制作和运营交互式实时3D (RT3D)内容平台,结合A
10、l大模型赋能游 戏业务Unity是一家全球领先的制作和运营交互式实时3D (RT3D)内容的平台,也是 全球最大的游戏引擎公司。收购ironSoUrCe之后,其主营业务包括与开发相 关的引擎类产品Create和与广告营销相关的产品GrOw。Unity成立于2004 年,起初为Over the Edge Entertainment并进行游戏开发工作,2005年公 司在游戏开发基础上转型工具,并于2005年发布Unityl. 0版本。20余 载,Unity先后登 陆并支持苹果IOS平台、OS平台、WindOWS平台等,伴随着 iPhone以及整个移动互联网的发 展,Unity迎来用户数量的快速增长
11、同时, 经过长期的迭代升级以及并购,公司逐步建立起游 戏以及其他领域的业务,形 成当前公司的主要业务架构,实现全平台全产业链覆盖的高兼容特 性。2023 年,公司发布AI产品:Unity Muse Unity Sentis,宣布结合AI大模型赋能 游戏业务。主要产品:Unity Muse:提供Al驱动协助的扩展平台,它加速了像视频游戏 和数字挛生这样的实时3D应用 和体验的生成。在MUSe上,用户能够通过自然 语言在Unity编辑器中开发游戏,打破技术壁垒。Unity Sentis:嵌入神经网 络,解锁全新实时体验。在技术层面,Unity SentiSl连接神经网络 与Unity Runti
12、me,因此,Al模型能够在Unity运行的任何设备上运行。SentiS是第一 个也是唯一一个将Al模型嵌入到实时3D引擎中的跨平台解决方案。Sentis 在用户的设备而非云端运行程序,因此其复杂性、延迟和成本都大大降低。 Muse Chat :基于AI,用户可以搜索跨越Unity文档、培训资源和支持内容, 以获取来自Unity的准确且最新的信息。Muse Chat能够帮助开发者快速获取 相关信息,包括工作代码样本,以加速 开发进程和提供解决方案。Open AI: 3D生成技术Point-E与Shap-E的更新迭代POint-E是一个3D模型生成器,可以在几分钟内生成3D图像。Point-E是一
13、个 机器学习系统,可以通过文本输入制作3D物体,由OPenAl于2022年12月发 布到开源社区。Point-E本身包括两个模型:GLlDE模型和image-to-3D模型。 前者类似于DALL-E或StabIe DiffUSion等系统,可以从文本描述生成图像。 第二个模型由OPenAl使用图像和相关的3D物体进行训练,学习从图像中生成 相应的点云。NVIDIA: 3D MoMa Magic3D NVIDIA Picasso 与 Neuralangelo3DMoMa:从二维图像中提取三维物体。2022年6月,NVIDIA推出3D MoMa,可 通过图像输入 生成三角网格组成的3D模型,并可直
14、接导入图形引擎。这项方 案的重点是,可直接导入支持三角形 建模的3D建模引擎、游戏引擎、电影渲 染器,可以在手机、浏览器上运行。3D MOMa生成的3D模型自带三角形网格, 将3D模型生成自动化,将有望加速艺术、游戏、影视等内容创作。Magic3D: 高分辨率的文本到3D内容创建技术。2022年月,英伟达推出Magic3D,采 用了与DreamFUSiOn类似的两段式生成技术路线,但使用不同的生成模型。 MagiC3D可以在40分钟内创 建高质量的三维网格模型,比DrealiIFUSion快2 倍,并实现了更高的分辨率NVIDIA Picasso:用于构建生成式Al视觉应用程 序的云服务。20
15、23年3月,英伟达推出NVlDIA Picasso,企业、软件创建者和 服务提供商可以在其模型上运行推理,在专有数据上训练NVIDIA Edify基础模 型,或者从预训练的模型开始,从文本提示生成图像、视频和3D内容。PiCaSSO服务 针对GPlJ进行了全面优化,并在NVIDIA DGX CIOUd上简化了训 练、优化和推理。此外,NVIDIA 也与 AdObe、Getty Images ShUtterStOCk 等 企业进行了合作,共同开发NVlDlA PiCaSSO模型。Apple:发布3D生成APl Object CaPtUre与3D场景生成模型GAUDl2021年6月,苹果发布了面向
16、MaC的摄影测量APl “Object Capture o Apple Object Capture为APPIe设备用户提供了一种相对快速和简单的方法来 创建现实世界对象的3D表示一一这意味着可以将物理对象转换为数字对象。 使用iPhone或iPad,可拍摄对象的照片,并使用macOS Monterey上新的对象 捕获API将其转换为针对增强现实(AR)进行优化的3D模型。物体捕捉功能使 用摄影测量技术将iPhone或iPad上拍摄的一系列照片转换为USDZ文件, 这些文件可以在“AR快速查看”中查看,无缝整合到Xcode项目中,或在专 业的3D内容工作流程中使用。2022年7月,来自苹果的A
17、I团队推出了 3D 场景生成的最新神经架构GAUDI o GAUDI是一个能够捕捉复杂而真实的 三维场景分布的生成模型,可以从移动的摄像机中进行沉浸式渲染,采用了一 种可扩展但强大的方法来解决这个具有挑战性的问题。研究人员首先优化一个 隐表征,将辐射 场和摄像机的位置分开,然后将其用于学习生成模型,从而能 够以无条件和有条件的方式生成三维场景。GAUDl在多个数据集的无条件生成 设置中取得了 SOta的性能,并允许在给定条件变量(如 稀疏的图像观测或描 述场景的文本)的情况下有条件地生成三维场景。Google技术路径剖析:从Dream Fields到DreamFusion的迭代升级Dream
18、Fields:训练DreamFieldS算法时需要多角度2D照片,完成训练后便 可生成3D模型、合成新视角。而CLlP的作用,依然是评 估文本生成图像的准 确性。文本输入至DreamFieldS后,未训练的NeRF模型会从单个视角生成随 机视图,然后通过CLlP来评估生成 图像的准确性。也就是说,CLlP可以用来 纠正和训练NeRF模型生成图像。这个过程将从不同的视角重复2万次,直到生 成符合文本描 述的3D模型。DreamFUSiOn是一种从文本提示生成3D模型的 新方法,它采用了与DreaIllField类似的方法,但模型中的损失函数基于概率 密度蒸储,最小化基于【扩散中前向过程共享的高斯
19、分布族】与【预训练的扩 散模型所学习的分数函数】之间的KL散度。技术步骤:先使用一个预训练2D 扩散模型基于文本提示生成一张二维图像。然后引入一个基于概率密度蒸偏的 损失函数,通过梯度下降法优化一个随机初始化的神经辐射场NeRF模型。DreamFusion结合了两种关键方法:神经辐射场和二维扩散。它逐步改进初始 的随机3D模型,以匹配从不同角度显示目标对象的2D参考图像:现有AI 模型(如Nvidia的Instant NeRF )使用的方法。然而,与InStant NeRF 不同,参考不是真实物体的照片,而是由OpenAI的DALL-E 2和Stability, ai的StabIe DiffU
20、SiOn使用 的类型的2D文本到图像模型生成的 合成图像。在这种情况下,2D扩散模型是Google自己的Imagen,但总体结 果是相同的:生成的3D模型与原始文本描述生成的2D参考图像相 匹配。至 关重要的是,整个过程既不需要3D训练数据,也无需修改图像扩散模型,完全 依赖预训练扩散模型作为先验一一这可能为开发 实用的、大众市场的基于AI 的文本到3D工具铺平了道路。2、生成式Al下游应用场景展望生成式AI将实现对视频/3D/游戏等下游应用场景的渗透今年以来,我们已经看到生成式Al在文本领域、代码生成、图像领域的快速发 展,如 GPT-4 的推出,Midjourney Stable Diff
21、USiOrl 的版本迭代,Github Copilot X升级等等。生成式AI在视频和3D模型领域的发展相对较慢,但随 着海外科技大厂及初创公司纷纷布局并推出基础的3D和视频生成模型和产品, 未来在创意领 域(如电影、游戏、VR、建筑和实体产品设计)的应用潜力广 阔。我们认为生成式Al将实现对视频/3D/游戏等下游应用场景的渗透。在短视频、 创作工具、游戏等下游领域,Runway Luma Al等Al原生产品有望融入工作 流,增强用户体验、降低用户使用壁垒、进一步降低使用成本。视频与建模工具或与传统工具/工作流结合,进一步拉动生成式Al的需求我们的观点:内容创作工具的重要性如何?我们认为关键在
22、于拉动远比工具本 身更大的市场,类似于短视频时代的前身GIF创作工具,如剪映这种 创作工具 和抖音这种内容生态,Maya这种创作工具和动画的内容生态,视频与建模工具 将进一步大幅拉动生成式Al的需求。模型能力或出现明显分化。我们认为当 前Diffusion开源模型下各公司生成图片的能力尚未明显出现分化,但建模和 视频更重要的在于和传统工具与工作流的结合。海外接下来半年关注什么? 我们认为从能力来看,图片生成的可控性快速提高或将出现,矢量图、结构、 视频、3D模型生成也将提速。尤其关注IJnity与APPle的合作,在Al生成内 容/建模/App适配上将会如何塑造空间计算的内容与应用的标准生态。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 生成 AI 专题报告 下一颗最 闪亮 视频 引擎 精选
