louwill12-CSDN博客

原创最强图像模型Nano Banana的14个最流行玩法！

但是深度用过4o图像生成的朋友都应该有体会：4o生成的图像，它会改变原图，比如照片修复，它修复完后会跟原图不一样，比如长相变了，构图改了等等。在Lovart中使用Nano生成超详细的图文笔记，可以视为信息图的一种高端玩法，这个也是这两天除了手办之外，Nano最流行的玩法。这个周末在Lovart上可以免费无限使用Nano，所以最强的图像生成的模型，配上最强的设计AI，碰撞出的火花也无可比拟。你需要生成这个笔记，来解释后面的内容；这是4o的修复，乍一看，很惊艳，但仔细一对比，发现细节全都不一样，长相也变了。

2025-08-31 23:17:02 678

原创新手如何快速利用Claude Code开发项目并部署上线

然后是权限管理问题，用过CC的朋友的都知道，CC在任务执行过程中，遇到一些文件读写、Bash命令、数据库操作、依赖库安装等操作时，经常会停下来要求你进行人工确认，非常耽误开发进度。可以先描述一下你的开发需求，比如做一个什么的网站，有哪些功能，面向什么样的用户，希望用什么框架等等。所以先别急着跟CC聊需求，在正式开干之前，我们需要进行一些信息配置，给CC输入一些基本的上下文信息，来让CC了解我们的开发习惯和使用偏好。中间过程可以深度与CC讨论，深化相关需求，最后形成一份需求清单后，就可以直接让CC开干。

2025-08-19 20:17:07 796

原创我用Gemini为两岁的女儿制作了一套AI故事绘本

作为一个有女儿的爸爸，我第一时间体验了下Gemini的storybook。让我吃惊的是，就这么一个看起来不是很复杂的AI Agent产品，所使用的Agent竟然高达20个！有了初步的使用经验之后，我又加大强度，将我女儿平时的生活照转换为吉卜力风格或者Veo3视频，再用Storybook生成了一套适合我女儿这个年龄阶段的故事绘本。当夜幕降临，我下班回到家，用电脑打开Gemini Storybook，和女儿在屏幕前一起听AI创作的故事绘本，我想这就是AI发展对于普通人的意义所在吧。

2025-08-11 20:55:21 407

原创 OpenAI最新开源模型GPT-oss一手实测：小而美的推理模型

并不是说这两个模型有多强（当然也确实很强，但不是对标Claude 4.1的那种强），而是在20B和120B的这个参数规模上，做了极致的工程优化。实测下来，感觉GPT-oss这两个模型响应速度非常快，到X上一查，20B的模型可以干到每秒1200个token，120B的模型也能达到536个token。相信这也是极致的工程优化后的结果。20B和120B都能很好的实现扫雷游戏，但20B只能实现初级的9x9扫雷，120B则提供了初级（9x9）、中级（16x16）和高级（30x16）三种level的难度。

2025-08-06 17:30:54 638

原创腾讯的混元3D AI生成，是每个人最佳的3D数字资产管理平台

Hunyuan3D-Paint则利用强大的几何和扩散先验，通过新颖的网格条件多视图生成管道和图像去光照模块，为生成或手工网格生成高分辨率、生动的纹理贴图，确保多视图生成的一致性。现在，我可以用单张3D医学影像，基于混元3D进行三维重建。但混元3D生成系列模型开源之后，在混元3D生成平台，用户仅需要提示词描述和参考图像，即可生成3D内容。在提升3D内容生成质量和效率的同时，也大幅度降低了3D内容创作的技术门槛。实验室可以看作是一个基于上述两大模型的3D应用平台，用户可以在上面完成一些有趣的3D生成创作。

2025-08-04 21:05:58 944

原创自从用了谷歌的NotebookLM后，我卸载了之前所有的个人笔记软件

这几年，笔记和知识库之类的应用涌现出很多，比如Notion、语雀、飞书，这些都能当个人笔记和知识库，并且这两年都不断在加深AI生态的构建。在中间的对话区，我们可以基于所有的数据材料，跟大模型进行对话，深度学习和探讨材料中的知识，并随时可以将讨论过程中的真知灼见添加到笔记区。NotebookLM还可以基于所有上传的材料，生成语音概览和视频概览，也就是AI博客，不想看文字的时候，我们可以听音频看视频。放心地使用NotebookLM的所有回答，它会为生成的内容提供明确的引用，并显示来源中的确切引文。

2025-07-31 21:05:58 480

原创正式发布一个月后，Veo3的含金量还在上升

Veo3正式发布都一个多月了，我原以为一波热度过去，等大众习惯这种最初的惊艳感之后，关于Veo3的讨论会有所减少。针对Veo3，谷歌还公开了一个更高端的图生视频玩法，就是直接在参考图像上按顺序用文本标注视频指令，让Veo3在生成时删掉第一帧，然后按顺序执行标注的文本指令。依靠音画同步和超强的一致性效果，Veo3使得谷歌原本在AI视频生成这个相对落后的赛道里，后来居上，迅速成为第一梯队玩家。月初的时候，我曾写过一篇关于Veo3发布后，AI视频生成赛道的整体竞争格局的文章。举几个最近的流行玩法的例子。

2025-07-28 16:37:04 946

原创 Qwen3-Coder编程实测，Qwen Code已成为Claude Code/Gemini CLI的国产平替

前有Cursor、Trae、Claude Code，后有Gemini CLI和Kimi K2，这次Qwen3-Coder又全面出击，整个赛道的竞争格局又面临变化。但整体来看，Qwen3 Coder目前的编程能力已经非常接近Claude 4 Sonnet了，甚至在部分任务上效果还要优于Claude 4。但Qwen3 Coder胜在开源，相比之下，Claude贵且易封号，使用Qwen3 Coder，每个月立省200刀，做梦都能笑醒。这时候，使用的模型就是Qwen3-Coder了。

2025-07-24 16:16:16 2345

原创多模态RAG，图像/语音/视频也能拿来做检索增强生成

比如论文中这个图，传统的PDF文档检索，要经过OCR、布局检测、文本摘要、文档切分（chunking）等一系列处理步骤，一套操作下来，每一页需要7.22秒的时间，可以说非常耗时了。Qwen2.5-Omni是一个端到端的多模态模型，旨在感知多种模态，包括文本、图像、音频和视频，同时以流式方式生成文本和自然语音响应。RAG作为大模型实际落地使用最需要的辅助工具，依靠基础的多模态大模型的能力进步，多模态RAG一定大有可为。ColPali的文本和图像检索基础上，新增了音频和短视频数据的检索生成功能。

2025-07-21 16:39:41 569

原创大模型从Chatbot变成Artifacts，Deep Research从文字结果到可视化报告

虽然这个问题链的话题并不是今天讨论的重点，但这种高度清晰可见的过程展示，让用户能够更加清楚的了解AI的工作过程，本身就是一种大模型可解释性的方式，也进一步增加了深度研究搜索过程和结果的可信度和可靠性。比如，在本例中，Gemini在报告的几个关键点上添加了Gemini交互按钮，我们可以点击相关按钮，更深入的理解报告内容。整体来看，Gemini Deep Research应该目前功能最为齐全的深度搜索产品了，底层依靠强大的Gemini 2.5 Pro基座模型，前端应用功能又齐全多样，玩技术生态，还得是谷歌。

2025-07-17 09:26:30 732

原创逆势而上的月之暗面：Kimi K2编程实测

该卡片应通过不同的动画效果直观展示以下天气状况：风：（例如移动的云朵、摇曳的树木或风线）雨：（例如落下的雨滴、积水形成）太阳：（例如照射的光线、明亮的背景）雪：（例如落下的雪花、积雪）将所有天气卡片并排显示。但K2的论文还未发布，这1T参数量的模型具体咋训练的，只能等后续论文发布了再看。特别是在年后DeepSeek崛起，六小龙模式岌岌可危的环境下，Kimi能逆势而上，仍然在基座模型上持续发力，颇有一种强势回归的即视感。巧合的是，K2发布后，OpenAI原定于这周要发布一款新的开源模型也被延迟发布了。

2025-07-14 16:36:21 747

原创自从有了Deep Research，我成了文献综述/技术调研爱好者

过去，我经常跟我的组员、跟机器学习交流群里的群友说，想要快速切入到一个不太熟悉的学术方向和技术领域时，最好的方法是找一篇该领域最新的综述来精读。我数了一下今年2月份以来，我在各个平台使用Deep Research生成的报告数，足足有113篇，除了周末，基本上每天都在用AI做深度研究和调研，是名副其实的文献综述和技术调研爱好者。有时候想想，现在的学生真幸福，赶上了AI爆发的好时代，各种信息、AI工具随手就能获得，我读研的时候要是有Deep Research这种科研大杀器，高低也能多出两篇学术成果。

2025-07-10 08:48:37 363

原创 Veo3视频生成，后来居上

" 在一段摇晃的手机自拍画面中，雨水打在镜头上，秦王李世民的黑甲军队与太子红卫队在泥泞的混乱中交锋：战马践踏着倒下的旗帜，破碎的剑刃嵌入雨淋的鹅卵石中。在下方的提示词输入框内输入生成提示词，框内右上角选择生成的视频个数（1~4个）和所用的生成模型（Veo2或者Veo3），即可进行视频生成。更重要的是，Veo3的爆火，给第一梯队的选手们带来了压力：这边可灵紧急上线音画同步生成功能，那边海螺发布新模型hailuo-02，顺带还发布了全球首个AI视频生成Agent。谷歌在这条赛道里面，其实是有些落后的。

2025-07-07 08:41:16 709

原创 Gemini CLI，命令行效率神器！也是目前唯一能白嫖Gemini 2.5 Pro的方式了

作为命令行工具，Gemini本身也是作为一个npm包（可以理解为Node.js的应用商店和命令行工具）发布的，所以安装Gemini前需要安装Node.js软件，直接到Node.js官网下载安装，安装过程中记得勾选将Node.js加入环境变量。但我想说的是，对于像Gemini CLI这样的新型生产力工具，一定要第一时间研究尝试，看看怎么跟自己当下的工作场景和工作流结合，来最大化自己的工作效率。所以，MCP本质上是一种大模型接口，通过这个接口与各种各样的功能进行链接，让大模型如虎添翼。

2025-07-03 08:56:11 1603

原创达摩院的胃癌早筛影像AI，再次印证了：医疗AI，最重要的不是模型和算法

然后的GRAPE的评估阶段，该阶段要跟放射科医生阅片做对比，测试GRAPE在辅助诊断方面的潜力。第二阶段，以前一阶段的ROI作为输入，基于3D卷积搭建多任务的分割和分类网络，分割网络同时分割出胃部和胃癌，分类网络在分割网络主干基础上用全局池化（GP）和全连接（FC）层拉的一个分支，是个典型的深监督结构，用于胃癌/非胃癌的二分类。早在两年前，达摩院就发布了基于胰腺癌早期筛查模型PANDA，同样是平扫CT，熟悉的Nature Medicine，在常见癌症的影像学大规模筛查上，达摩院似乎找准了AI医疗的落地点。

2025-06-30 08:56:10 869

原创《深度学习图像分割》第5章：基于多尺度结构的分割网络

ParseNet通过全局平均池化的方法在FCN基础上直接获取上下文信息，图5-3为ParseNet的上下文提取模块，具体地，使用全局平均池化对上下文特征图进行池化后得到全局特征，然后对全局特征进行L2规范化处理，再对规范化后的特征图反池化后与局部特征图进行融合，融合得到的特征图最终能够显著提升语义分割效果。多尺度结构的设计理念在于通过增强模型对不同尺度上下文的感知能力，提升语义分割的精细度和全局一致性，其主要目标是解决上下文信息捕捉不足和多尺度特征融合问题。上下文的概念与自然语言处理中的句子语境分析类似。

2025-06-24 22:49:37 743

原创 DeepSeek-R1-7b全量微调（SFT）技术教程

一个7b的模型，采用LoRA训练通常只需要两张24G的3090或4090显卡即可，并且对数据量要求不高，几百条数据即可开训，半小时内即可训练完成，非常高效。并且LoRA是一种可插拔式的适配器模型，当我们想要实现不同的模型风格效果时，在基础模型不变的情况下，可以训练多个LoRA与基础模型切换和适配，非常灵活。SFT一般需要较多的高质量微调数据，对算力要求也非常高，一个7b的模型，全量微调通常需要参数量16~20倍的GPU显存，也就是说至少需要两张80G的A100显卡才能训的动。为了方便读者上手，笔者通过。

2025-03-16 19:37:01 2805

原创使用ChatGPT Deep research做技术调研，10分钟出一篇论文综述！

这两天OpenAI下调了Deep research功能的使用门槛，原先200美刀一个月的Pro用户才能用的，现在20刀的Plus用户也能用了。因为我日常经常要针对特定研究方向做文献调研，经常要花1-2周时间精泛文献，是一个非常耗时耗力的活。所以Deep research我第一时间尝了个鲜，简单和大家聊一下这个东西。选择o1模型，然后在输入框下面把Deep research勾选上，就可以体验深度研究...

2025-02-28 16:59:06 1212

原创我用DeepSeek将《桃花源记》拍成了微电影！

不好意思，有点标题党了，大家都知道DeepSeek是个纯LLM，没有多模态的功能，没法生成视频，出图的功能都没有。完整的技术方案应该是DeepSeek+Midjourney+即梦+剪映。其中DeepSeek用于生成分镜脚本和提示词，Midjourney用于生成分镜首图，即梦用来直接生成分镜视频，而剪映用于最终的剪辑和成片。本文主要展示如何组合使用上述工具，将陶渊明的《桃花源记》生成为1-2分钟的微...

2025-02-24 15:26:28 872

原创 DeepSeek接入本地知识库！

无论大模型能力有多强，在回答人类提问时或多或少都会存在胡说八道的情况，也就是我们所说的幻觉（Hallucination）。这段时间爆火的DeepSeek当然也会存在这类问题。特别是垂直领域的大模型应用，对于模型回答的准确率要求非常高，因为存在幻觉问题，单纯依靠大模型难以满足使用需求，所以我们一般会通过检索增强生成（Retrieval-Augmented Generation, RAG）技术来缓解大...

2025-02-19 10:02:54 739

原创 DeepSeek-R1本地化部署的两种方案！

DeepSeek爆火之后，短时间官网和app都涌入大量用户，再加上对面美帝不讲武德搞攻击，导致官网和api调用非常不稳定，极度影响用户体验：综合这几天来看，要想继续无痛使用DeepSeek，有如下几种方案：继续使用官网，等DeepSeek官方修复和提升用户体验使用第三方平台上的DeepSeek，比如硅基流动、秘塔、纳米搜索等本地化部署这篇文章主要介绍两种本地化部署方案。需要提前说明的是，本地化部署...

2025-02-08 13:58:54 1374

原创制作个人的第一个RAG demo！

检索增强生成（Retrieval-Augmented Generation, RAG）是一种结合了信息检索和大模型（LLM）的技术，用于构建更强大和准确的问答或生成系统。RAG通过将大模型与外部知识库相结合，可以动态检索相关信息并利用生成模型对查询进行更准确的回答。RAG在对抗大模型幻觉、高效管理用户本地文件以及数据安全保护等方面具有独到的优势，因而目前基于大模型应用专门做RAG赛道的企业不在少...

2024-12-18 16:55:30 1081

原创《深度学习图像分割》第4章：基于编解码结构的分割网络

《深度学习图像分割》这本书写写停停，历经三年多，目前在二稿修订中。正式出版之前，计划先在GitHub做逐步的内容和代码开源。以下为本书第4章节选内容：编解码网络结构是深度学习图像分割中的经典设计和主流架构，广泛应用于各类场景的分割任务中。本章将以全卷积网络和U-Net结构为基础，深入剖析各种编解码网络结构的变体，包括SegNet、RefineNet、Attention U-Net、Residual...

2024-11-27 17:11:51 759

原创《深度学习图像分割》第3章：图像分割关键技术组件

《深度学习图像分割》这本书写写停停，历经三年多，目前在二稿修订中。正式出版之前，计划先在GitHub做逐步的内容和代码开源。以下为本书第3章节选内容：近年来，基于深度学习的图像分割技术发展迅猛，涌现出大量创新的模型和算法。然而，构成这些方法的核心技术组件并未发生根本性变化。为了能够系统性的理解深度学习图像分割模型的设计，本章将首先回顾图像分割中的关键技术组件，为后续章节中深度学习分割网络的具体介绍...

2024-11-11 16:28:20 591 1

原创《深度学习图像分割》第2章：传统图像分割算法

《深度学习图像分割》这本书写写停停，历经三年多，目前在二稿修订中。正式出版之前，计划先在GitHub做逐步的内容和代码开源。以下为本书第2章节选内容：图像分割是数字图像处理和计算机视觉领域中的一个经典问题，旨在将图像划分为若干具有特定意义的子区域或目标对象。图像分割是一种典型的图像处理方法，其输入和输出都是图像。传统的图像分割方法通常基于图像的两个基本属性：灰度值的不连续性和灰度值的相似性，并围绕...

2024-11-05 16:16:46 1301

原创预告 | 《深度学习图像分割》将在GitHub逐步内容开源！

《深度学习图像分割》这本书写写停停，历经三年多，目前在二稿修订中。正式出版之前，计划先在GitHub做逐步的内容和代码开源。以下为本书第1章节选内容：相较于目标检测只关注图像中的局部区域，基于深度学习的图像分割则更为精细，它将每一个像素点作为研究对象，并对每个像素赋予一个语义标签。因此，图像分割的一个基本类型称为语义分割（semantic segmentation）。除了语义分割，实例分割（ins...

2024-10-15 21:58:33 720

原创浅谈医工交叉方向SCI写作

笔者因为工作性质原因，这几年写了不少医学人工智能方向的SCI论文，顺带每年相关的论文的阅读量也有小几百篇，特别是在医学影像AI方向，也算是小有心得，今天就简单聊一下医工交叉(影像AI)方向的SCI论文写作与投稿问题。首先声明一点，医工方向非常吃人脉和数据资源，如果没有医院数据和标注资源的话，想发高分期刊非常难。不是说不可能，也有天赋型选手单靠几个常用的公开数据集设计出新的网络结构发到MIA和TMI...

2024-06-20 15:43:36 1150

原创用天工AI搜索起底《庆余年2》，终于搞清楚了范闲有几个爹！

前两天庆余年剧组官方宣布了《庆余年2》定档5月16日，不少粉丝早已按耐不住自己期待的心情，包括笔者自己。虽然但是，笔者好像已经忘了第一部里面都讲了哪些内容了？不知道有没有跟笔者一样的朋友。毕竟，距离第一部开播，已经都快五年了。刚好最近AI搜索很火，笔者就用了国内第一款AI搜索——天工AI搜索来帮助温习了下庆余年的内容。其实AI搜索这个东西，它也不是最近才火的，早在ChatGPT刚问世不久，业界就有...

2024-05-12 11:00:45 1292 1

原创扩散模型：DDPM的两种数学推导

在上一篇文章最后结尾时，笔者提到扩散模型(Diffusion Models)实际上就是一种在限定条件下的马尔可夫层次变分自编码器(Markovian Hierarchical Variational Autoencoder, MHVAE)，是融入了马尔可夫过程的VAE模型。其本质上和VAE的流程有相似之处，都是经过原始图像->高斯噪声图->生成图像的三个步骤。本文将接续上一篇关于ELB...

2024-04-14 10:58:29 2155

原创概率的艺术：变分下界(ELBO)与VAE

按照年初的规划，LLM和AIGC是笔者今年重点学习的两大方向，目前已经分两条线在逐步展开中。笔者最近对Stable Diffusion在本地进行了部署，深度尝试使用了三周时间，对SD常规用法、LoRA、Textual Inversion、Dreambooth和ControlNet均小有尝试，以下均为笔者使用SD绘制的效果图片(相关模型均来自Civitai)。SD等绘图工作背后的核心技术就是目前非常...

2024-04-08 16:17:03 5668 1

原创深度学习图像分割，我准备了103篇SOTA论文合集

大家好！我是louwill。深度学习近年来在众多领域已取得了令人瞩目的成就，计算机视觉正是其中的典型代表。图像分割是图像处理和计算机视觉的一个重要应用方向，在深度学习的影响下，图像分割经历了由传统图像处理技术向深度学习主导的重要转变。特别是去年SAM等一众图像分割大模型涌现，深度学习图像分割发展已近白热化。过去一年里，《深度学习图像分割》这本书已完成初稿，近日在整理相关文献以备下一轮修改。这本书累...

2024-02-22 15:16:46 1094 4

原创 gpt-4-turbo、gpt-4v、dall-e-3 api实测！

上周GPT大更新，不仅开放了GPT-4-Turbo、GPT-4-Vision等模型api，还发布了GPTs，使得用户能够根据需要定义自己的GPT应用，OpenAI在这波AI革命上又一次震撼世人。笔者也在上周拿到了几个新模型的api资格，一直盼着可以测试年初就官宣的多模态功能，所以迫不及待的就测了一波。DALL.E 3绘图功能测试from openai import OpenAIclient ...

2023-11-13 17:07:03 3435

原创很久不互动了，谈一下近况

我是louwill，各位晚上好！今年因为有了娃，90%的空闲时间都在带娃，加上下半年的两个职称考试，所以公众号很少有时间写原创，也很少跟各位读者朋友们有互动了。晚上刚给娃哄睡下，打开公众号原创编辑页面，简单跟大家聊几句。今年4月底，有了一个心心念念的可爱女儿，自此一直在朝着奶爸的方向努力。工作上中规中矩，可能处于一种特殊的瓶颈期吧。时间一晃到了11月，稍微有一点时间可以输出一些内容。今年一项重要的...

2023-11-12 22:49:24 353 1

原创第12章 PyTorch图像分割代码框架-3：推理与部署

推理模块模型训练完成后，需要单独再写一个推理模块来供用户测试或者使用，该模块可以命名为test.py或者inference.py，导入训练好的模型文件和待测试的图像，输出该图像的分割结果。inference.py主体部分如代码11-7所示。代码11-7 推理模块部分# 导入相关库import numpy as npimport torchfrom PIL import Image# 定义...

2023-11-09 17:15:32 921

原创第12章 PyTorch图像分割代码框架-2

模型模块本书的第5-9章重点介绍了各种2D和3D的语义分割和实例分割网络模型，所以在模型模块中，我们需要做的事情就是将要实验的分割网络写在该目录下。有时候我们可能想尝试不同的分割网络结构，所以在该目录下可以存在多个想要实验的网络模型定义文件。对于PASCAL VOC这样的自然数据集，我们可能想实验Deeplab v3+、PSPNet、RefineNet等网络的训练效果。代码11-3给出了Deepl...

2023-11-06 18:55:08 449

原创第12章 PyTorch图像分割代码框架-1

从本章开始，本书将会进行深度学习图像分割的实战阶段。PyTorch作为目前最为流行的一款深度学习计算框架，在计算机视觉和图像分割任务中已经广泛使用。本章将介绍基于PyTorch的深度学习图像分割代码框架，在总体框架的基础上，基于PASCAL VOC 2012数据集，分别介绍预处理模块、数据导入模块、模型模块、工具函数模块、配置模块、主函数模块、推理模块和部署模块等。每个模块都会在基本的代码结构基础...

2023-10-24 16:27:00 641

原创在微信上部署GPT-4.0！

自从OpenAI开放api以后，使得基于GPT的各类二次开发的应用逐渐多了起来。笔者也在前几天也刚刚收到了GPT-4的api使用资格。由于众所周知的原因，在OpenAI官网使用GPT多少有点不那么顺畅。笔者曾经尝试过一些本地化部署个人GPT的项目，比如基于ChatGPT Next部署的个人GPT，有api的读者可以在下面地址进行体验，速度比官网还要快：https://www.louwillgpt....

2023-05-07 20:50:23 4271 1

空空如也

空空如也