SDXL真源码阅读记录(不是调用一下出图就行)

吐槽

本来之前的文章是在写open-sora,看文生视频这块的,因为我当时是准备入职一家新公司,新公司说要做这个相关的。结果去了新公司之后简直离谱,完全没有技术,他们的大模型就是拼凑起来的,能调免费接口就调免费接口,能用开源模型就用开源模型,这开源模型也是pt模型就直接用,直接打包成一个app给用户,用户在自己机器(大部分是cpu或者mac那种电脑)上推理,总之非常非常夸张(我当时过去还得写前端)。因此我直接光速离职,最近也是花时间找工作看下家,所幸入职下家后目前给我感觉挺好的。
关键词:影视公司、aigc
如果有小伙伴找工作碰到这俩关键词欢迎找我咨询,我就不放上具体名称了。

SDXL真源码阅读

由于SD这玩意做底层一点研究的和做上层应用的都很多,还有就是一些设计师、做绘画的等等都会涉及到,因此我在找SDXL代码相关找到的都是调一下api出个图的那种,比如调diffusion库去跑个图出来就完事了。
然后新公司是让我先把SDXL代码了解一下,我就只能自己硬着头皮看了,然后最近在鼓捣写个人博客,所以我把阅读的记录都放在个人博客了,大家有兴趣可以看一下,也欢迎交流。(个人博客是用gridea写的,目前一些功能使用什么的还不太熟悉)

带我的同事让我从论文看起,然后在到代码,因为进度有一些快,所以我也有点蒙蔽,因此按照我看完论文后的理解,以 先采样推理训练的流程来阅读SDXL代码,顺带再看看model什么的(扩散模型的算法核心其实并不是深度学习model,当然并不是说model不重要)

SDXL代码阅读-概览-1
SDXL代码阅读-Pipeline推理-1.1
SDXL代码阅读-Sampler推理(EDM)-1.2
SDXL代码阅读-训练(pytorch lightning)-2.1
SDXL代码阅读-训练(pytorch lightning)-2.2

如果看的人多了,到时候可以拉个群一起讨论,因为论文的一些推导、与代码相对应我也无法确定,也许大家一起讨论才会有一个不错的结果。

### SDXL LoRA 模型像训练的数据预处理方法 对于SDXL LoRA模型,在准备用于训练的像数据时,需遵循一系列特定的预处理步骤以确保最佳性能和结果质量。 #### 像尺寸调整 为了使输入的一致性和提高计算效率,所有用于训练的原始片应被重新缩放至统一大小。通常情况下,推荐使用512×512像素作为标准分辨率[^1]。这一步骤可以通过Python中的PIL库轻松实现: ```python from PIL import Image import os def resize_images(input_folder, output_folder, size=(512, 512)): if not os.path.exists(output_folder): os.makedirs(output_folder) for filename in os.listdir(input_folder): img_path = os.path.join(input_folder, filename) with Image.open(img_path) as img: resized_img = img.resize(size, Image.ANTIALIAS) save_path = os.path.join(output_folder, filename) resized_img.save(save_path) ``` #### 数据增强 通过应用随机变换来扩充数据集可以有效防止过拟合并提升泛化能力。常见的操作包括旋转、翻转以及色彩抖动等。这些功能同样可以在PyTorch torchvision.transforms模块下找到现成的方法[^2]。 ```python import torch from torchvision import transforms transform = transforms.Compose([ transforms.RandomHorizontalFlip(), transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2), ]) tensor_image = transform(tensor_image) ``` #### 文件组织结构 按照指定路径存储经过预处理后的像文件有助于简化后续加载过程,并保持良好的项目管理习惯。具体来说,应该将训练素材放置于`/data/models/Train/`目录之下。此外,建议创建额外的子文件夹分别存放不同类别的样本,以便更好地分类管理和检索。 #### 清洗与筛选 去除不符合要求或存在质量问题的照片至关重要。例如,模糊不清、严重失或是含有过多噪声干扰的内容都应当予以剔除。这一环节可能涉及人工审查配合自动化工具共同完成,从而保证最终进入训练阶段的数据具备较高的可用性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值