
人工智能
文章平均质量分 89
thesky123456
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
DeepSeek-R1-0528
DeepSeek-R1-0528模型在DeepSeekV3Base基础上通过强化后训练显著提升了推理能力,在数学、编程等基准测试中达到国内领先水平。新版模型在AIME2025测试准确率提升至87.5%,思维深度增强明显(平均23K tokens/题)。模型优化了45-50%的幻觉问题,并增强了创意写作和工具调用能力。API保持原有接口,支持FunctionCalling和64K上下文,开源版本提供128K上下文。该模型的改进方法对推理模型研究和小模型开发具有重要价值。原创 2025-05-30 14:31:45 · 397 阅读 · 0 评论 -
Qwen3[特殊字符] Qwen Chat
阿里云正式推出Qwen3系列大语言模型,包含从0.6B到235B参数的密集型和MoE混合专家架构模型。新版本支持智能与非智能模式切换,在数学推理、代码生成和多语言处理(支持100+种语言)方面表现优异。模型提供多种部署方式,包括Transformers、llama.cpp等框架支持,并兼容苹果MLX平台。Qwen3采用Apache 2.0开源协议,技术细节详见相关技术报告。用户可通过HuggingFace或ModelScope获取模型权重,文档提供了从推理到微调的完整使用指南。原创 2025-05-30 14:28:50 · 942 阅读 · 0 评论 -
国产海光DCU及超算平台深度解析
尽管面临生态完善度与国际技术差距的挑战,其持续迭代的产品性能、与DeepSeek等企业的深度合作,以及国家“东数西算”战略的推动,将加速国产DCU在AI、科学计算等领域的全面替代进程。• 智算中心建设:在国家级超算中心中,海光DCU集群已支持千亿参数大模型训练,单集群算力规模达100PFLOPS(FP16),训练效率达到英伟达H100集群的65%。• 采用7nm+工艺,显存容量提升至512GB,带宽达1.536TB/s,支持全精度模型训练,适配文心一言、通义千问等国产大模型。原创 2025-05-05 17:14:34 · 3238 阅读 · 0 评论 -
qwen3
💜 Qwen Chat | 🤗 Hugging Face | 🤖 ModelScope | 📑 Paper | 📑 Blog | 📖 Documentation🖥️ Demo | 💬 WeChat (微信) | 🫨 Discord Visit our Hugging Face or ModelScope organization (click links above), search checkpoints with na原创 2025-05-03 15:22:16 · 851 阅读 · 0 评论 -
Qwen3
我们很高兴地宣布 Qwen3 的发布,它是 Qwen 大型语言模型家族的最新成员。这些模型代表了我们的最高成就和最智能的系统,从构建 QwQ 和 Qwen2.5 的经验中不断进步。我们将 Qwen3 的权重向公众开放,包括密集型和混合专家(MoE)模型。多种尺寸的密集型和混合专家(MoE)模型,包括 0.6B、1.7B、4B、8B、14B、32B 以及 30B-A3B、235B-A22B。在思考模式(用于复杂的逻辑推理、数学和编码)和非思考模式。原创 2025-05-03 15:20:28 · 821 阅读 · 0 评论 -
llama factory怎么命令行推理图片
{"role": "assistant", "content": "这是由电阻R1、电容C2和运放U3组成的低通滤波电路..."}• Windows系统需使用双反斜杠:`"images": ["data\\mllm_demo_data\\1.jpg"]`"file_name": "circuit_sum_data.json", // 实际数据文件名。{"role": "user", "content": "描述这张电路图"},"role_tag": "role", // 角色字段映射。原创 2025-04-26 14:50:23 · 459 阅读 · 0 评论 -
llama factory 命令行推理流程
首先找到报错的行,看看计算时都用到哪些变量或者数据,然后在调试模式下使用.is_cuda这个属性去查看到底哪些是在GPU上,哪些是在CPU上,然后把它们统一都放在CPU,或者统一放在GPU上就可以。self.rope_deltas = torch.tensor(...) # 默认可能在CPU或错误GPU。修改文件:模型定义部分(如 __init__ 方法)修改文件:modeling_qwen2_vl.py。1. 强制统一设备(推荐)。2. 模型初始化修正。原创 2025-04-26 08:00:00 · 515 阅读 · 0 评论 -
BERT BERT BERT
BERT是一种预训练语言表示的方法,意味着我们在大型文本语料库(如维基百科)上训练一个通用的“语言理解”模型,然后用该模型来执行我们关心的下游NLP任务(例如,问答)。BERT超越了以前的方法,因为它是首个无监督、深度双向的预训练NLP系统。无监督意味着BERT仅使用纯文本语料库进行训练,这一点很重要,因为许多语言在网络上有大量公开可用的纯文本数据。预训练表示可以是上下文无关的或是上下文相关的,而上下文相关的表示则可以是单向的或双向的。例如,像word2vec或GloVe。原创 2025-04-25 08:00:00 · 751 阅读 · 0 评论 -
BERT BERT
BERT是一种预训练语言表示的方法,意味着我们在大型文本语料库(如维基百科)上训练一个通用的“语言理解”模型,然后用该模型来执行我们关心的下游NLP任务(例如,问答)。BERT超越了以前的方法,因为它是首个无监督、深度双向的预训练NLP系统。无监督意味着BERT仅使用纯文本语料库进行训练,这一点很重要,因为许多语言在网络上有大量公开可用的纯文本数据。预训练表示可以是上下文无关的或是上下文相关的,而上下文相关的表示则可以是单向的或双向的。例如,像word2vec或GloVe。原创 2025-04-24 23:46:15 · 1453 阅读 · 0 评论 -
TensorFlow
TensorFlow 是一个端到端的开源机器学习平台,拥有广泛而灵活的生态系统,包括 工具,库 和 社区资源。我们使用 GitHub 问题 来追踪请求和 bug,如果您有普通问题和讨论,建议访问 TensorFlow 论坛,具体的问题请提交到 Stack Overflow。TensorFlow 原本由谷歌大脑机器智能团队的研究员和工程师开发,用于在机器学习和神经网络领域进行研究。也可以使用 tf-nightly 和 tf-nightly-cpu 在 PyPi 上获取测试用的夜间构建版本。原创 2025-04-25 08:00:00 · 519 阅读 · 0 评论 -
Google Gemma
这是关于的一系列指南和示例的集合。Gemma 是一系列轻量级、最先进的开放模型,由创建 Gemini 模型所用的相同研究和技术构建而成。原创 2025-04-24 14:45:22 · 1029 阅读 · 0 评论 -
Ollama
Ollama 是一个轻量级、可扩展的框架,用于在本地计算机上构建和运行语言模型。它提供了创建、运行和管理模型的简单 API,以及一系列预构建模型的库,这些模型可以轻松地应用于各种场景。NOTE] 运行 7B 模型至少需要 8 GB 内存,运行 13B 模型需要 16 GB 内存,运行 33B 模型需要 32 GB 内存。Ollama 提供了一套 REST API,用于运行和管理模型。命令,可以在不运行桌面应用程序的情况下启动 ollama。指令并提供要导入的模型的本地文件路径。快速上手大型语言模型。原创 2025-04-24 14:42:25 · 1282 阅读 · 1 评论 -
llama factory
NOTE] 除上述链接以外的其他网站均为未经许可的第三方网站,请小心甄别。原创 2025-04-20 23:10:34 · 1082 阅读 · 0 评论 -
llama-factory的部署网页打不开
打开interface.py文件,路径为:LLaMA-Factory-main/src/llamafactory/webui/interface.py。从https://cdn-media.huggingface.co/frpc-gradio-0.2/frpc_linux_amd64下载文件。这部分主要参考:服务器使用llama-factory 无法在本地打开webui问题处理_llamafactory 本地访问-CSDN博客。注:第一个路径为文件当前路径,第二个为目标路径。原创 2025-04-21 09:00:00 · 1076 阅读 · 2 评论 -
Qwen2.5-VL
【代码】Qwen2.5-VL。原创 2025-04-20 08:30:00 · 933 阅读 · 0 评论 -
DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model
【代码】DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model。原创 2025-04-20 08:00:00 · 980 阅读 · 0 评论 -
Deepseek R1
【代码】Deepseek R1。原创 2025-04-19 08:30:00 · 913 阅读 · 0 评论 -
DeepSeek-V3
deepseekv3原创 2025-04-19 08:00:00 · 1314 阅读 · 0 评论 -
Tokenizer的细节计算方式及优缺点分析
加载预训练模型的分词器# 自定义词表扩展# 编码示例。原创 2025-04-18 17:05:26 · 551 阅读 · 0 评论 -
多头注意力与单头注意力介绍以及代码细节
多头注意力通过 多组参数并行计算 和 子空间特征融合,在代码复杂度上显著高于单头注意力,但也因此具备更强的特征表达能力。开发者需在 参数分割、并行计算优化 和 维度对齐 三个层面特别注意代码设计。使用 3个独立线性层 分别生成Q/K/V矩阵,输入输出维度一致。6. 输入输出兼容性。1. 线性变换层设计。2. 维度分割与重组。3. 并行计算逻辑。5. 掩码处理差异。原创 2025-04-15 12:02:26 · 638 阅读 · 0 评论