【AI大模型前沿】RelightVid:上海 AI Lab联合复旦等高校推出的视频重照明模型

系列篇章💥

No.文章
1【AI大模型前沿】深度剖析瑞智病理大模型 RuiPath:如何革新癌症病理诊断技术
2【AI大模型前沿】清华大学 CLAMP-3:多模态技术引领音乐检索新潮流
3【AI大模型前沿】浙大携手阿里推出HealthGPT:医学视觉语言大模型助力智能医疗新突破
4【AI大模型前沿】阿里 QwQ-32B:320 亿参数推理大模型,性能比肩 DeepSeek-R1,免费开源
5【AI大模型前沿】TRELLIS:微软、清华、中科大联合推出的高质量3D生成模型
6【AI大模型前沿】Migician:清华、北大、华科联手打造的多图像定位大模型,一键解决安防监控与自动驾驶难题
7【AI大模型前沿】DeepSeek-V3-0324:AI 模型的全面升级与技术突破
8【AI大模型前沿】BioMedGPT-R1:清华联合水木分子打造的多模态生物医药大模型,开启智能研发新纪元
9【AI大模型前沿】DiffRhythm:西北工业大学打造的10秒铸就完整歌曲的AI歌曲生成模型
10【AI大模型前沿】R1-Omni:阿里开源全模态情感识别与强化学习的创新结合
11【AI大模型前沿】Qwen2.5-Omni:阿里巴巴的多模态大模型,实现看、听、说、写一体化
12【AI大模型前沿】SmolDocling:256M参数的轻量级多模态文档处理利器,10分钟搞定百页PDF
13【AI大模型前沿】Stable Virtual Camera:Stability AI 推出的2D图像转3D视频模型,一键生成沉浸式视频
14【AI大模型前沿】阿里 Qwen3 震撼开源,模型新王诞生,开启全球大模型新纪元
15【AI大模型前沿】InternVL:OpenGVLab开源多模态大模型,解锁视觉问答与多语言翻译的全能应用图鉴
16【AI大模型前沿】Fin-R1:上海财经大学联合财跃星辰推出的金融推理大模型,凭7B参数拿下评测第二,离行业第一仅差3分
17【AI大模型前沿】Med-R1:基于强化学习的医疗视觉语言模型,突破跨模态医学推理的普适性
18【AI大模型前沿】Baichuan-M1-14B:百川智能推出专为医疗优化的开源大语言模型
19【AI大模型前沿】一键生成宫崎骏动画风,EasyControl Ghibli 让照片秒变吉卜力艺术品
20【AI大模型前沿】TxGemma:谷歌推出的高效药物研发大模型,临床试验预测准确率超90%
21【AI大模型前沿】F5R-TTS:腾讯推出TTS领域的新王者,又快又准又自然,零样本语音克隆新高度
22【AI大模型前沿】MiniMind-V:低成本打造超小多模态视觉语言模型(仅需1.3元人民币和1小时)
23【AI大模型前沿】MoCha:端到端对话角色视频生成模型、电影级对话角色合成黑科技、重新定义动画创作
24【AI大模型前沿】HuatuoGPT-o1-7B:中英文双语医学推理,打破语言障碍的AI大模型
25【AI大模型前沿】MedReason:大规模医学推理数据集、借用知识图谱将大模型打造成“医术”专家
26【AI大模型前沿】SkyReels-V2:昆仑万维开源的无限时长电影生成模型,开启视频生成新纪元
27【AI大模型前沿】Dia:Nari Labs开源16亿参数TTS模型,只需文本输入,生成媲美真人对话的语音
28【AI大模型前沿】阿里巴巴开源LHM:单图生成可动画3D人体模型,开启3D建模新纪元
29【AI大模型前沿】TinyLLaVA-Video-R1:北航开源视频推理模型、小尺寸大智慧、参数少一半,性能翻一番
30【AI大模型前沿】TTRL:测试时强化学习,开启无标签数据推理新篇章
31【AI大模型前沿】Aero-1-Audio:Qwen2.5架构加持,轻量级音频模型天花板、吊打Whisper
32【AI大模型前沿】DianJin-R1:阿里云通义点金联合苏大推出的金融推理增强大模型
33【AI大模型前沿】VITA-Audio:腾讯开源的高效语音交互多模态大语言模型
34【AI大模型前沿】Multiverse:全球首个AI多人游戏世界模型,低成本高效率新突破
35【AI大模型前沿】Seed1.5-VL:多模态理解的效率革新者,以小博大,性能惊艳
36【AI大模型前沿】ViLAMP:蚂蚁集团和人民大学联手打造的长视频理解利器,单卡处理3小时视频
37【AI大模型前沿】Muyan-TTS:开源零样本语音合成模型、0.33秒极速生成播客级语音、小白也能玩转AI配音
38【AI大模型前沿】Dolphin:字节跳动开源文档解析大模型,轻量级、高效、多格式,开启文档处理新时代
39【AI大模型前沿】ChatTS:字节跳动联合清华大学开源、多模态时序大模型助力时序数据对话与推理
40【AI大模型前沿】Index-AniSora:B站开源的动漫视频生成模型,助力高效创作
41【AI大模型前沿】RelightVid:上海 AI Lab联合复旦等高校推出的视频重照明模型


前言

在数字内容创作和视频编辑领域,光照条件对视觉效果有着至关重要的影响。然而,传统的视频重照明技术往往依赖于复杂的拍摄条件或后期处理,难以实现高效且自然的光照调整。为了解决这一问题,上海 AI Lab联合复旦大学、上海交通大学、浙江大学、斯坦福大学和香港中文大学等高校,推出了一种名为RelightVid的视频重照明模型。该模型基于时序一致性扩散模型,能够根据文本提示、背景视频或HDR环境贴图对输入视频进行细粒度和一致的场景编辑,为视频创作带来了新的可能性。
在这里插入图片描述

一、项目概述

RelightVid是一个由上海 AI Lab联合多所高校推出的视频重照明模型,旨在通过文本提示、背景视频或HDR环境贴图对视频进行高质量的重照明。它支持全场景重照明和前景保留重照明,能够在保持时序一致性和照明细节方面表现出色。RelightVid基于预训练的图像照明编辑扩散框架(IC-Light),通过引入可训练的时序层和多模态条件联合训练,实现了对视频的高效重照明。这一技术为影视制作、游戏开发、增强现实等领域提供了强大的工具,能够显著提升视频内容的创作效率和视觉效果。
在这里插入图片描述

二、技术原理

(一)扩散模型扩展

RelightVid基于预训练的图像重照明扩散模型(如IC-Light),通过扩展架构支持视频输入,并引入时序层捕捉帧间的时间依赖性,确保重照明的时序一致性。这种扩展不仅保留了图像重照明的高质量,还增强了视频重照明的效果。

(二)多模态条件联合训练

RelightVid能够同时利用背景视频、文本提示和HDR环境贴图作为条件。通过编码器将这些条件嵌入到模型中,并基于交叉注意力机制实现协同编辑,从而实现对视频的细粒度控制。

(三)光照不变集成(Illumination-Invariant Ensemble, IIE)

为了提高模型在不同光照条件下的鲁棒性,RelightVid采用了光照不变集成策略。通过亮度增强输入视频并平均预测噪声,该策略可以有效防止反照率变化,确保重照明结果的一致性。

(四)数据增强管道(LightAtlas)

RelightVid通过自定义的增强管道生成高质量的视频重照明数据对。该管道结合真实视频和3D渲染数据,为模型提供了丰富的光照先验知识,增强了对复杂光照场景的适应能力。

三、主要功能

(一)文本条件重照明

用户可以通过输入文本描述(如“阳光透过树叶,形成斑驳光影”或“柔和的晨光,金色时刻”)对视频进行重照明。RelightVid能够根据文本提示生成与描述相符的光照效果。

(二)背景视频条件重照明

RelightVid可以使用背景视频作为光照条件,动态调整前景对象的光照,使前景与背景光照一致。这种功能特别适用于需要将前景对象与特定背景环境融合的场景。

(三)HDR环境贴图条件重照明

通过使用HDR环境贴图,RelightVid能够实现更精确的光照控制,生成高质量的重照明效果。这对于需要模拟复杂光照条件的场景非常有用。

(四)全场景重照明

RelightVid支持对前景和背景进行联合重照明,使整个场景与光照条件匹配,生成自然且一致的视觉效果。

(五)前景保留重照明

在某些场景中,用户可能希望突出前景对象,而保留背景不变。RelightVid支持对前景进行重照明,同时保留背景的原始光照,满足此类需求。

在这里插入图片描述

四、应用场景

(一)影视制作

在电影或电视剧中,RelightVid可以快速调整场景的光照效果,以匹配不同的剧情需求或导演的创意构想,无需重新拍摄。这大大节省了时间和成本,提高了创作效率。

(二)游戏开发

在游戏开发中,RelightVid可以动态改变场景光照,增强游戏的沉浸感和视觉效果。例如,根据不同的时间和天气条件,实时调整游戏中的光照,使玩家获得更真实的体验。

(三)增强现实(AR)

在AR应用中,RelightVid可以实时调整虚拟元素的光照,使其与真实环境的光照一致,提升用户体验。这对于需要将虚拟对象与现实世界无缝融合的应用场景非常关键。

(四)视频广告与营销

RelightVid能够为广告视频快速生成多种光照风格,满足不同品牌或活动的宣传需求,提升视频的视觉吸引力。例如,通过改变光照氛围,模拟不同的天气或时间场景,丰富广告内容。

(五)视频内容创作

对于视频博主或内容创作者来说,RelightVid可以帮助他们轻松改变视频的光照氛围,如模拟不同天气或时间的场景,丰富创作内容,提升视频的视觉效果。

五、快速使用

(一)环境配置

  1. 克隆项目代码
    首先,从GitHub克隆RelightVid项目代码:
git clone https://github.com/Aleafy/RelightVid.git
cd RelightVid
  1. 安装依赖
    安装项目所需的Python依赖包:
conda create -n relitv python=3.10
conda activate relitv

pip install torch==2.1.2 torchvision==0.16.2 --index-url https://download.pytorch.org/whl/cu118
pip install -r requirements.txt

(二)模型准备

  1. 下载预训练模型
    为了复现RelightVid的结果,需要下载以下预训练模型,并按照以下目录结构组织:
RelightVid
├── models
│   ├── realistic-vision-v51                              // stable diffusion base model
│   │   ├── text_encoder
│   │   │   ├── config.json
│   │   │   └── model.safetensors
│   │   ├── tokenizer
│   │   │   ├── merges.txt
│   │   │   ├── special_tokens_map.json
│   │   │   ├── tokenizer_config.json
│   │   │   └── vocab.json
│   │   ├── unet
│   │   │   └── diffusion_pytorch_model.safetensors
│   │   ├── vae
│   │   │   ├── config.json
│   │   │   └── diffusion_pytorch_model.safetensors
│   ├── iclight_sd15_fbc.safetensors                      // ic-light weights
│   ├── relvid_mm_sd15_fbc.pth                            // relightvid motion weights

你可以通过项目提供的下载链接下载所有模型文件。

(三)视频重照明

  1. 背景视频条件重照明
    如果你想使用背景视频作为光照条件对输入视频进行重照明,可以运行以下命令:
python inference.py \
  --input "./assets/input/lion.mp4" \
  --mask "./assets/mask/lion" \
  --bg_cond "./assets/video_bg/stage_light2.mp4" \
  --output_path "output/lion_stagelight2.mp4"

其中:

  • --input:输入视频的路径。
  • --mask:每帧前景掩码的目录路径。
  • --bg_cond:背景光照条件视频的路径。
  • --output_path:重照明结果保存的路径。

你可以自由组合任何输入视频和任何背景视频。以下是更多示例命令:

python inference.py --input "./assets/input/woman.mp4" --mask "./assets/mask/woman" --bg_cond "./assets/video_bg/universe1.mp4" --output_path "output/woman_universe1.mp4"
python inference.py --input "./assets/input/woman.mp4" --mask "./assets/mask/woman" --bg_cond "./assets/video_bg/beach.mp4" --output_path "output/woman_beach.mp4"
python inference.py --input "./assets/input/man.mp4" --mask "./assets/mask/man" --bg_cond "./assets/video_bg/tunnel.mp4" --output_path "output/man_tunnel.mp4"
python inference.py --input "./assets/input/man2.mp4" --mask "./assets/mask/man2" --bg_cond "./assets/video_bg/fantasy.mp4" --output_path "output/man2_fantasy.mp4"
python inference.py --input "./assets/input/lion.mp4" --mask "./assets/mask/lion" --bg_cond "./assets/video_bg/stage_light1.mp4" --output_path "output/lion_stagelight1.mp4"
python inference.py --input "./assets/input/truck.mp4" --mask "./assets/mask/truck" --bg_cond "./assets/video_bg/universe3.mp4" --output_path "output/truck_universe3.mp4"
python inference.py --input "./assets/input/truck.mp4" --mask "./assets/mask/truck" --bg_cond "./assets/video_bg/universe1.mp4" --output_path "output/truck_universe1.mp4"
python inference.py --input "./assets/input/glass.mp4" --mask "./assets/mask/glass" --bg_cond "./assets/video_bg/snow.mp4" --output_path "output/glass_snow.mp4"
python inference.py --input "./assets/input/dance.mp4" --mask "./assets/mask/dance" --bg_cond "./assets/video_bg/sunscape.mp4" --output_path "output/dance_sunscape.mp4"

(四)注意事项

  • 输入视频和掩码
    • 确保输入视频和前景掩码的帧数一致。前景掩码目录中应包含与输入视频每一帧对应的掩码图像。
  • 模型路径
    • 确保下载的预训练模型文件路径与代码中指定的路径一致。如果路径不一致,需要修改代码中的模型路径。
  • 输出结果
    • 重照明后的视频将保存在指定的--output_path路径中。如果路径不存在,程序将自动创建该路径。

六、结语

RelightVid作为一种创新的视频重照明技术,为视频编辑和内容创作带来了新的可能性。它通过文本提示、背景视频或HDR环境贴图实现了对视频的高效重照明,同时保持了时序一致性和光照细节。RelightVid在影视制作、游戏开发、增强现实等多个领域具有广泛的应用前景,能够显著提升视频内容的创作效率和视觉效果。随着技术的不断发展,我们期待RelightVid在未来能够进一步优化,支持更复杂的光照场景和更高效的处理能力。

七、项目地址

  • 项目官网:https://aleafy.github.io/relightvid/
  • GitHub仓库:https://github.com/Aleafy/RelightVid
  • arXiv技术论文:https://arxiv.org/pdf/2501.16330

在这里插入图片描述

🎯🔖更多专栏系列文章:AI大模型提示工程完全指南AI大模型探索之路(零基础入门)AI大模型预训练微调进阶AI大模型开源精选实践AI大模型RAG应用探索实践🔥🔥🔥 其他专栏可以查看博客主页📑

😎 作者介绍:资深程序老猿,从业10年+、互联网系统架构师,目前专注于AIGC的探索(CSDN博客之星|AIGC领域优质创作者)
📖专属社群:欢迎关注【小兵的AI视界】公众号或扫描下方👇二维码,回复‘入群’ 即刻上车,获取邀请链接。
💘领取三大专属福利:1️⃣免费赠送AI+编程📚500本,2️⃣AI技术教程副业资料1套,3️⃣DeepSeek资料教程1套🔥(限前500人)
如果文章内容对您有所触动,别忘了点赞、⭐关注,收藏!加入我们,一起携手同行AI的探索之旅,开启智能时代的大门!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

寻道AI小兵

🐳 感谢你的巨浪支持!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值