
人工智能
文章平均质量分 81
00&00
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
候选框表示及相互转换
在多目标跟踪(MOT)或目标检测任务中,**候选框(Bounding Box)**是用于表示目标位置的关键数据结构。候选框的表示形式有多种,不同算法、库或阶段(如训练、推理)可能会采用不同形式。理解这些表示及其相互转换非常重要。原创 2025-07-21 12:05:03 · 402 阅读 · 0 评论 -
多目标跟踪:运动模型
运动模型是一个基于时间序列的目标位置预测方法。它尝试基于目标的历史状态(如位置、速度)来预测其在下一帧中的位置。位置(t) + 速度 → 预测位置(t+1)模型适合场景优点缺点匀速简单场景快速、实现容易不鲁棒Kalman常规视频MOT精度较高、可更新对遮挡敏感粒子滤波高遮挡、非线性鲁棒性高速度慢加速度模型快速运动目标更真实建模参数复杂。原创 2025-07-20 21:50:40 · 602 阅读 · 0 评论 -
多目标跟踪
多目标跟踪(MOT)是计算机视觉的核心任务,旨在视频中持续跟踪多个目标并保持ID一致。主要流程包括目标检测(YOLO等模型)、目标关联(基于距离、特征等)和轨迹维护。常用算法分为基于检测器+关联器(如DeepSORT、ByteTrack)和端到端深度学习两类。DeepSORT结合外观特征与卡尔曼滤波实现鲁棒跟踪。评估指标包括MOTA、IDF1等,常用数据集有MOT17、UA-DETRAC等,广泛应用于安防、交通分析等领域。代码示例展示了YOLOv5+DeepSORT的行人跟踪实现。原创 2025-07-20 21:35:37 · 367 阅读 · 0 评论 -
OpenCV : cv2.dnn 模块
cv2.dnn是 OpenCV 的,用于在,执行多种深度学习模型的推理任务。原创 2025-07-20 16:58:13 · 433 阅读 · 0 评论 -
imutils 工具包
项目内容名称imutils类型图像处理工具库依赖OpenCV (cv2), NumPy作用简化 OpenCV 中常见的图像变换操作安装优点:简化常见图像处理任务(调整大小、旋转、边缘检测等)避免 OpenCV 中冗长调用支持常用图像识别流程(如透视矫正、轮廓排序)限制:不能替代 OpenCV,只是封装部分功能对复杂任务(如图像分割、检测)无直接帮助。原创 2025-07-20 13:20:44 · 171 阅读 · 0 评论 -
numba即时编译器
属性内容名称numba类型Python 的 JIT 编译器支持后端LLVM(低级虚拟机)适用场景数组计算、循环、数值算法编译方式@jit或@njit装饰器优势代码加速,兼容性高,接近 C 的运行速度Numba 是提升 NumPy 和 Python 计算效率的强力工具:简单易用性能提升巨大支持多线程、GPU不适合数据分析类工具直接加速。原创 2025-07-19 16:54:35 · 325 阅读 · 0 评论 -
莎士比亚风格的文本生成任务
摘要:莎士比亚风格文本生成是NLP中的风格迁移任务,需模仿其古英语词汇(thou/thee)、倒装句式和五音步韵律等特征。实现方法包括:1)微调GPT等预训练模型;2)基于LSTM从零训练字符级模型。建议使用Project Gutenberg的莎士比亚语料,并加入韵律控制模块增强效果。典型输出如"Thy love hath made mine eyes forget thy sight",展现伊丽莎白时代的诗性语言特征。关键挑战在于准确捕捉早期现代英语的语法变异和戏剧性修辞。原创 2025-07-18 16:58:31 · 385 阅读 · 0 评论 -
CRF模型
摘要:条件随机场(CRF)是一种序列标注概率图模型,通过全局建模输出标签序列的条件概率,克服了HMM和MEMM的局限性。它在NLP任务中表现优异,支持多种特征组合,但依赖特征工程且训练较慢。现代方法常将CRF与BiLSTM、BERT等神经网络结合,如BiLSTM-CRF和BERT-CRF模型,通过深度特征提取提升性能。典型应用包括命名实体识别,Python实现可使用sklearn-crfsuite库,需自定义特征函数。CRF的核心优势在于序列建模能力,但面临特征工程复杂、计算成本高等挑战。(149字)原创 2025-07-18 16:54:18 · 317 阅读 · 0 评论 -
DeepSeek-R1:开源推理模型的突破
DeepSeek-R1 是一款基于混合专家(MoE)架构的大语言模型,基于 DeepSeek-V3 开发,拥有6710 亿参数,但每次推理仅激活 370 亿参数,极大地优化了计算效率。它的设计目标是解决复杂推理任务,例如数学问题、编程挑战和逻辑推理,性能可媲美 OpenAI 的 o1 模型。与基础模型 DeepSeek-V3 不同,R1 通过纯强化学习(RL)和多阶段训练(包括两个 RL 阶段和两个监督微调阶段)进行了优化,显著提升了输出的可读性和一致性。DeepSeek-R1 的训练采用了。原创 2025-07-17 20:01:32 · 710 阅读 · 0 评论 -
DeepSeek
DeepSeek是一家中国 AI 创企,成立于 2023 年,发布了一系列开源的、大规模且低成本的语言模型(自 2023 年底发布首个基础版本以来,DeepSeek 快速迭代,已成为全球开源 LLM(大语言模型)中的领军者。优点内容说明性能领先MMLU、数学、代码等 benchmark 上超越多数开源与闭源模型高度可扩展MoE 架构仅激活部分专家,降低推理成本长文本处理能力强支持高达 128K tokens 文本输入开源与透明度高模型和论文开放供社区使用与研究训练与运行成本低。原创 2025-07-17 19:51:00 · 826 阅读 · 0 评论 -
GPT-3预训练模型
项目内容发布机构OpenAI发布时间2020 年 6 月模型结构Transformer Decoder-only(仅使用解码器结构)输入方式自回归方式(基于上下文预测下一个 token)预训练任务无监督语言建模(language modeling)主要特点大规模预训练 + 零/少样本泛化能力 + 通用任务提示适应能力(prompting)GPT-3 不仅在自然语言生成方面表现优异,还在翻译、问答、编程、摘要、逻辑推理等多种任务上均具备能力。原创 2025-07-17 19:43:40 · 904 阅读 · 0 评论 -
GPT-2预训练模型
摘要:GPT-2是OpenAI于2019年发布的Transformer架构自回归语言模型,参数量从1.17亿到15亿不等,具有强大的文本生成能力。它采用Decoder-only结构,支持零样本推理,适用于文本生成、问答等任务,但存在输入长度限制和缺乏双向理解等不足。尽管后续GPT-3等模型性能更强,GPT-2凭借开源特性仍是轻量级应用的首选。HuggingFace平台提供了便捷的调用接口,支持直接使用和领域微调。原创 2025-07-17 19:38:15 · 838 阅读 · 0 评论 -
XLNet 预训练模型
属性内容模型名称XLNet提出机构发布时间2019 年基础架构Transformer-XL(带有相对位置编码)最大特点Permutation Language Modeling(排列语言建模)主要目标结合 BERT(MLM)和 GPT(Auto-regressive)的优点项目内容模型类型自回归 + 自编码混合型 Transformer特点Permutation LM、Transformer-XL 架构优势保留词序、无信息泄露、捕捉更丰富上下文应用效果。原创 2025-07-16 21:28:59 · 634 阅读 · 0 评论 -
ERNIE预训练模型
项目内容全称提出者百度 Baidu首次发布2019 年模型结构BERT 改进型,使用 Transformer Encoder 架构主要目标融合先验知识(如实体、词组、句法)进行预训练应用场景分类、匹配、问答、抽取等各类 NLP 任务模型特点内容架构类型主要创新实体级 mask、多任务知识融合代表性任务中文 NLP(分类、匹配、问答)性能表现中文任务优于 BERT 等基础模型是否开源是,部分模型参数可在 Hugging Face 获取。原创 2025-07-16 21:24:46 · 599 阅读 · 0 评论 -
DeBERTa预训练模型
特性内容全称提出者发布时间2021 年基础架构主要特点解耦注意力机制 + 相对位置编码 + 解码增强模型开源项目内容模型名称DeBERTa提出单位架构类型Encoder-only (BERT 类 Transformer)创新点解耦注意力机制 + 相对位置编码优势精度更高,泛化更强使用推荐推荐用于高精度自然语言理解任务。原创 2025-07-16 21:20:51 · 575 阅读 · 0 评论 -
T5预训练模型
特性内容提出团队Google Research (Colin Raffel 等)论文名称架构基于 Transformer 的 Encoder-Decoder统一方式输入、输出全部是文本模型名称项目内容核心理念所有 NLP 任务皆转为 Text-to-Text架构预训练应用分类、生成、翻译、摘要、问答、句子重写等工具库支持良好,可直接部署。原创 2025-07-16 21:16:19 · 524 阅读 · 0 评论 -
长文本预测任务使用BERT构造训练样本
场景推荐策略关键信息在前直接截断前 512信息分布均匀滑动窗口前后重要,中间可舍首尾拼接结构清晰、长文层次式 BERT高效高性能需求Longformer、BigBird、RoBERTa 等。原创 2025-07-16 20:54:36 · 375 阅读 · 0 评论 -
BERT的MLM任务采用80% 10% 10%的策略的原因
BERT 采用 80%[MASK]模拟真实语言环境,避免模型只学会猜[MASK]提高泛化能力与鲁棒性提供更丰富的学习信号,提高语义建模能力这种比例已被实践验证,在 NLP 预训练中是个极具代表性的设计。如果你有兴趣,我还可以展示一下用 PyTorch 实现这个 masking 策略的代码。是否需要?原创 2025-07-16 20:48:33 · 687 阅读 · 0 评论 -
GPT-4预训练模型
GPT-4全称为,由 OpenAI 于 2023 年 3 月发布。其核心思想仍然基于自回归 Transformer 解码器架构,但在训练数据、模型参数、能力边界、稳定性和推理能力方面做了大幅优化。项目描述发布机构OpenAI架构类型Transformer Decoder(自回归)支持模态文本 + 图像(多模态)能力类型语言生成、代码生成、数学推理、视觉理解等支持语言多达 26 种以上,表现更均衡项目GPT-4 总览模型定位通用 AI 能力平台代表特征多模态、强逻辑、长上下文。原创 2025-07-15 23:18:56 · 872 阅读 · 0 评论 -
GPT预训练模型
GPT是一种基于Transformer架构的自回归语言模型,由OpenAI开发。它采用"预训练+微调"模式,在文本生成、对话等NLP任务中表现优异。核心架构为Decoder-Only Transformer,通过自注意力机制建模语言规律。GPT系列从最初的1.1亿参数发展到GPT-4的多模态版本,具备few-shot学习能力。优势包括强大的生成能力和任务泛化性,但也存在计算资源消耗大、长文处理受限等不足。典型应用涵盖对话系统、代码生成等领域,可通过HuggingFace等工具快速部署。相原创 2025-07-15 21:48:18 · 839 阅读 · 0 评论 -
ELMo模型
属性ELMo 模型解释模型结构双向语言模型(BiLSTM + char-CNN)表达方式每个词根据上下文获得不同的向量应用方式作为词向量输入给下游模型(不可微调参数)优势上下文感知、无 OOV、支持多层加权组合不足模型较重,训练慢,不支持端到端 fine-tunes_j%5Cgamma。原创 2025-07-15 17:10:02 · 471 阅读 · 0 评论 -
Transformer可以代替seq2seq的原因
Transformer 能够全面替代传统的,主要是因为它在建模能力、效率和可扩展性上全面优于基于 RNN 的 Seq2Seq。以下是原因的详细解析。原创 2025-07-15 15:02:16 · 523 阅读 · 0 评论 -
Transformer 相比于传统的 RNN优势
Transformer在NLP领域展现出比RNN/LSTM/GRU更强的性能优势。其核心优势包括:完全并行计算能力、更好的长距离依赖建模、多头注意力机制带来的多维语义表达、以及更适合大规模预训练的特性。通过自注意力机制,Transformer能同时处理整个序列,克服了RNN的顺序计算限制,显著提升了训练效率和模型表达能力。这些优势使得Transformer成为BERT、GPT等现代NLP模型的基础架构,并成功应用于机器翻译、文本生成等任务。原创 2025-07-15 14:56:59 · 941 阅读 · 0 评论 -
Transformer:采用Multi-head Attention的原因和计算规则
h: 注意力头的个数(例如 8)d_k: 每个头的维度,通常总体输出维度保持为d_model名称说明注意力头数 h一般为 8 或 12每个头的维度 dₖ通常 dₖ = d_model / h计算过程对每个头单独计算 Self-Attention并行性所有头同时计算,适合 GPU 并行加速优点多角度理解 token 关系,增强表达力Multi-Head Attention = 多个不同“角度”的 Self-Attention + 拼接 + 映射整合。原创 2025-07-15 11:51:54 · 868 阅读 · 0 评论 -
Transformer :Self-Attention(自注意力机制)
特性说明全局上下文每个词都能与所有其他词交互位置无关不依赖相对/绝对位置,可与位置编码组合使用并行计算所有 token 同时处理,速度快灵活建模根据不同输入动态学习注意力分布Self-Attention 是 Transformer 模型的核心灵魂,既实现了强大的表达能力,又兼顾了效率。掌握了它,就为理解整个 Transformer 奠定了基础。原创 2025-07-15 11:05:00 · 850 阅读 · 0 评论 -
Transformer:结构中的Decoder端具体输入
模块输入来源说明左移后的目标序列用于构建输入 token 表示位置索引编码 token 顺序Decoder 自己生成的 token 序列加掩码,防止看未来Encoder 的输出引入源语言语义信息上一步注意力机制的输出非线性转换,提升表达能力。原创 2025-07-15 10:51:42 · 445 阅读 · 0 评论 -
Transformer:结构及各个子模块的作用
模块作用多头注意力机制提取不同位置之间的依赖关系前馈全连接层对每个 token 向量做非线性加工残差连接保留原始信息,缓解深度训练问题层归一化(LayerNorm)提高训练稳定性,加速模型收敛位置编码添加顺序信息,保留位置信息编码器-解码器注意力解码器获取输入的全局语义表示%20b_2。原创 2025-07-15 10:40:46 · 751 阅读 · 0 评论 -
加载和使用预训练模型
HuggingFace Transformers库提供了便捷的预训练模型调用方式,支持BERT、GPT等各类模型,适用于文本分类、生成、问答等任务。文章详细介绍了安装方法、模型加载流程、输入编码与输出处理,并展示了如何使用BERT进行文本分类和中文处理。同时还讲解了模型微调和GPT-2文本生成的具体操作,最后总结了常见模型及其适用场景。通过该工具库,开发者可以轻松利用预训练模型完成高质量的NLP任务。原创 2025-07-09 17:21:40 · 276 阅读 · 0 评论 -
BERT 预训练模型
BERT是由Google AI在2018年提出的里程碑式预训练语言模型,采用双向Transformer编码器结构,大幅提升了多项NLP任务表现。其核心创新在于双向上下文编码和两种预训练任务:掩码语言模型(MLM)和下一句预测(NSP)。BERT具有多种变体(如RoBERTa、ALBERT等),适用于文本分类、问答系统等任务,通过HuggingFace等工具库可快速实现调用。虽然存在训练资源消耗大等局限,但作为NLP领域的奠基性模型,BERT仍是最可靠的基座模型之一。原创 2025-07-09 13:24:33 · 727 阅读 · 0 评论 -
NLP 中常用的预训练模型综述
预训练模型(Pre-trained Model)是指在大规模语料(如维基百科、新闻语料、社交网络数据)上预先训练好的通用语言模型。它们捕捉了语言的语义、结构和上下文信息,可以迁移到下游任务,如分类、问答、翻译等。建议方向实践建议初学者选择 BERT、RoBERTa 等结构清晰、资料丰富的模型中文任务使用 Chinese-BERT、ERNIE、RoFormer 等多语言处理选择 mBERT、mT5、XLM-R推理和逻辑任务使用 DeBERTa、RoBERTa、T5文本生成。原创 2025-07-09 13:18:31 · 737 阅读 · 0 评论 -
WNLI 数据集详解:最难的自然语言推理任务之一
WNLI是GLUE基准中的一项特殊自然语言推理任务,源自Winograd Schema Challenge,专注于代词消解和常识推理。该任务需判断假设句子能否从前提中逻辑推导,具有数据量小(仅635训练样本)、标注质量参差不齐的特点。GLUE官方建议不要针对WNLI进行优化,因其测试集与验证集存在重复。虽然可用BERT等预训练模型微调,但更适合作为测试模型代词解析能力的工具而非主要训练数据。使用需注意标注噪声和数据泄露风险,建议在报告中明确说明不对该任务结果过度调参。原创 2025-07-09 10:34:14 · 647 阅读 · 0 评论 -
RTE 数据集详解:文本蕴涵识别的经典任务
RTE(识别文本蕴涵)是GLUE基准中的关键任务,旨在判断前提与假设句子的逻辑关系(蕴涵或非蕴涵)。该数据集包含约2,500条训练样本,适用于文本验证、问答系统等场景。典型处理流程包括:使用BERT等预训练模型进行微调,通过分词、编码、训练等步骤构建分类器。建议采用迁移学习(如先在MNLI预训练)、数据增强和多任务联合训练等策略提升性能。该任务对语言理解能力要求高,是测试模型推理能力的有效基准。原创 2025-07-09 10:31:24 · 287 阅读 · 0 评论 -
QNLI 数据集详解:基于问答的自然语言推理任务
QNLI是GLUE基准中的自然语言推理任务,源自SQuAD问答数据集。它将问题与句子配对,判断句子是否能回答问题,输出"entailment"或"not_entailment"。与原始QA不同,QNLI是二分类任务而非答案提取。该任务可用于信息检索、问答系统等场景,数据规模约10万训练样本。实践上可用BERT等模型处理,通过HuggingFace加载数据集,进行训练和推理。推荐使用BERT、RoBERTa等模型,其中DeBERTa在多项NLI任务中表现优异。原创 2025-07-09 10:26:22 · 272 阅读 · 0 评论 -
MNLI 数据集详解:多领域自然语言推理基准
MNLI(多领域自然语言推理)是由纽约大学和谷歌联合提出的文本对分类数据集,属于GLUE基准评测的核心任务。该数据集包含39万条样本,要求判断前提句与假设句之间的逻辑关系(蕴含/矛盾/中立),涵盖新闻、小说等10个文本领域。提供匹配(matched)和不匹配(mismatched)两个验证集,主要用于测试模型跨领域泛化能力。通过BERT等预训练模型进行微调后,可应用于问答系统、内容审核等需要逻辑推理的场景。该数据集已成为评估自然语言理解能力的重要基准。原创 2025-07-09 10:21:53 · 659 阅读 · 0 评论 -
STS-B 数据集详解:衡量句子之间的语义相似度
STS-B(语义文本相似度基准)是GLUE基准中的句子语义相似度评估数据集,要求模型预测两个句子间的相似度得分(0-5分)。该回归任务采用皮尔逊和斯皮尔曼相关系数评估模型性能。数据集包含5,749条训练样本,适用于搜索优化、推荐系统等场景。推荐使用BERT、Sentence-BERT等模型,通过HuggingFace可快速实现模型训练与预测。与QQP/MRPC分类任务不同,STS-B更注重连续语义相似度的精准评估。原创 2025-07-09 10:16:52 · 674 阅读 · 0 评论 -
QQP 数据集详解:判断两个问题是否在问同一件事
QQP(Quora Question Pairs)是Quora提供的用于判断两个问题是否语义相似的标准数据集,属于自然语言处理中的句子对分类任务。其目标是通过模型自动识别重复提问,提高问答效率。数据集包含约80万条人工标注的问题对,标签为1表示语义重复,0表示不同。该任务难点在于处理表达方式多变、隐含语义等问题。常用评价指标包括准确率和F1分数。实践应用中,可通过BERT等预训练模型进行微调处理。QQP广泛应用于搜索引擎、智能问答等场景,是评估句子相似度建模能力的重要基准。原创 2025-07-09 09:31:10 · 594 阅读 · 0 评论 -
SST-2 数据集详解:NLP 情感分析的黄金标准
SST-2是GLUE基准中的英文情感分析任务,源自斯坦福大学的电影评论数据集,用于判断句子情感倾向(积极/消极)。相比五分类的SST-1,SST-2采用二分类形式(0=负面,1=正面),包含约67,000条训练数据。该任务需要理解复杂语义(如反讽),顶级模型准确率可达95%+。HuggingFace提供了BERT等预训练模型的实现方案。SST-2的情感分析技术广泛应用于商品评论、舆情监控等领域,是评估NLP模型情感理解能力的重要基准。原创 2025-07-08 22:43:47 · 759 阅读 · 0 评论 -
CoLA 数据集详解:教 AI 分辨“通顺”英文
项目内容名称任务判断英文句子是否语法可接受类型二分类(Acceptable / Unacceptable)特点来自语言学论文,数据精炼、挑战性高评估应用测试模型语言结构理解能力,常用于评估 BERT、GPT 等。原创 2025-07-08 22:23:34 · 303 阅读 · 0 评论 -
全面了解 GLUE 数据集:自然语言理解的试金石
摘要:GLUE基准是自然语言理解领域的标准化评估平台,包含9种不同难度的语言任务,涵盖语法判断、情感分析、语义推理等。该基准由纽约大学等机构于2018年推出,推动构建通用语言模型的发展。GLUE提供统一格式的数据集和评估接口,与HuggingFace等工具深度集成。BERT等主流模型都通过GLUE证明性能,其进阶版SuperGLUE则提出了更高要求的挑战。作为NLP领域的"标准化考试",GLUE已成为衡量语言模型理解能力的重要指标。原创 2025-07-08 22:04:00 · 813 阅读 · 0 评论 -
迁移学习理论:让AI举一反三
迁移学习(Transfer Learning)是指:把在一个任务中学到的知识迁移到另一个相关但不同的任务中,从而提升新任务的学习效率和效果。举个例子:你学会了骑自行车,再学骑摩托车就容易多了,因为你已经掌握了平衡和转向的技能。这就是人类的“迁移能力”。机器学习中也一样:如果我们已经在数百万篇新闻上训练了语言模型(如 fastText、BERT),那么面对一个小型医疗文本分类问题,就可以迁移预训练的模型来加速学习、提升效果。原创 2025-07-08 16:33:23 · 962 阅读 · 0 评论