吐槽
本来之前的文章是在写open-sora,看文生视频这块的,因为我当时是准备入职一家新公司,新公司说要做这个相关的。结果去了新公司之后简直离谱,完全没有技术,他们的大模型就是拼凑起来的,能调免费接口就调免费接口,能用开源模型就用开源模型,这开源模型也是pt模型就直接用,直接打包成一个app给用户,用户在自己机器(大部分是cpu或者mac那种电脑)上推理,总之非常非常夸张(我当时过去还得写前端)。因此我直接光速离职,最近也是花时间找工作看下家,所幸入职下家后目前给我感觉挺好的。
关键词:影视公司、aigc
如果有小伙伴找工作碰到这俩关键词欢迎找我咨询,我就不放上具体名称了。
SDXL真源码阅读
由于SD这玩意做底层一点研究的和做上层应用的都很多,还有就是一些设计师、做绘画的等等都会涉及到,因此我在找SDXL代码相关找到的都是调一下api出个图的那种,比如调diffusion库去跑个图出来就完事了。
然后新公司是让我先把SDXL代码了解一下,我就只能自己硬着头皮看了,然后最近在鼓捣写个人博客,所以我把阅读的记录都放在个人博客了,大家有兴趣可以看一下,也欢迎交流。(个人博客是用gridea写的,目前一些功能使用什么的还不太熟悉)
带我的同事让我从论文看起,然后在到代码,因为进度有一些快,所以我也有点蒙蔽,因此按照我看完论文后的理解,以 先采样推理 再训练的流程来阅读SDXL代码,顺带再看看model什么的(扩散模型的算法核心其实并不是深度学习model,当然并不是说model不重要)
SDXL代码阅读-概览-1
SDXL代码阅读-Pipeline推理-1.1
SDXL代码阅读-Sampler推理(EDM)-1.2
SDXL代码阅读-训练(pytorch lightning)-2.1
SDXL代码阅读-训练(pytorch lightning)-2.2
如果看的人多了,到时候可以拉个群一起讨论,因为论文的一些推导、与代码相对应我也无法确定,也许大家一起讨论才会有一个不错的结果。