自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(20)
  • 收藏
  • 关注

原创 传统检索:BM25 及其变体与 DocT5query 检索算法对比

查询“神经网络原理”分解为词“神经”“网络”“原理”,文档得分基于优化后的 IDF 和默认参数,排名靠前文档为包含查询词的适中长度文档。: 查询“深度学习”通过翻译模型扩展为“deep learning”“神经网络”,文档包含扩展词的得分更高,排名更准确。: 查询“深度学习应用”分解为词“深度”“学习”“应用”,长文档因非线性归一化获得更公平的得分,排名更均衡。: BM25 的变体,优化文档长度归一化,引入非线性长度惩罚,减少对短文档的偏见,适合长文档检索。待定DocT5query。

2025-04-17 21:51:15 795

原创 密集检索模型

2025-04-17 21:00:53 483

原创 生成式检索模型

以下表格总结了各模型的关键属性,方便对比分析:

2025-04-16 22:20:47 940

原创 github的使用

【代码】github的使用。

2025-06-23 21:09:57 283

原创 服务器配置PyCharm

【代码】服务器配置PyCharm。

2025-06-07 22:04:19 214

原创 Mqtt服务器搭建

MQTT 是一种轻量级消息发布/订阅协议,适合物联网设备通信。MQTT Broker(代理服务器):负责消息的转发,所有客户端(发布者和订阅者)都连接到Broker。客户端:可以是树莓派,PC,手机等,通过Broker发送或接收消息。

2025-06-05 19:57:44 1267

原创 利用语用推理改进稀疏检索

传统 RSA :一个说话者和 10 个学生,每次都能细致地推理他们的反应;RRA:要面向 10 万用户,不能逐个分析,只能做压缩优化,但仍保留推理精髓。

2025-05-17 22:59:10 814

原创 conda环境保存

目的:防止环境崩溃,提前备份文件环境。

2025-05-11 13:49:22 203

原创 树莓派使用

配置用户名,主机名默认,只有配置你的wifi他才会开机自动连接。选择相应内容烧录到SD卡中。

2025-04-25 16:42:51 335

原创 DocT5query

设置top_k参数决定对前多少个检索评估。

2025-04-19 12:34:20 402

原创 t5-base模型问题以及注意点

Tokenizer:1000000000000000019884624838656,序列转换器长度错误。“n_positions”: 512,模型输入序列最大长度正确。解决方法:添加T5缺失文件,即选中的文件。添加后再次执行的结果(变为正确)只需要关注以下两个参数。

2025-04-16 19:02:44 339

原创 DSI生成式检索

Decoder-only Search Index(2022年)

2025-04-14 21:01:31 544

原创 mengzi-t5-base模型的使用

只能作为填词模型进行使用,根据特性微调以便适应下游任务。<extra_id_0>处是你想让模型输出的内容。

2025-04-14 16:41:52 609

原创 hugging-face模型下载与使用

Files进行模型本地下载(设置好浏览器下载路径后,点击每个文件后的下载,注意所有文件都要下载,这里我的下载路径为"D:\model\Qwen-7B-Chat")Model card有模型概述以及需要什么模型之外的额外插件以及模型使用方法(Transformers Usage) 下拉后找到此词条。模型页面,左边可以选择相应任务筛选模型,右边为可使用模型实体。以下是官方给出的代码,其他模型类似(只修改了模型加载地址)hugging-face链接,需要设置外网访问。

2025-04-12 22:30:35 728

原创 RepBERT检索方法,以及CLS和last_hidden_state

【代码】RepBERT检索方法,以及CLS和last_hidden_state。

2025-04-12 21:56:47 794

原创 密集段落检索 (DPR)

由于上述 input_ids,embeddings 方法回提示警告让传入attention_mask。因此我采用直接**inputs 语法将字典解包为关键字参数。**注意:**中文需要进行分析,否则编码器按字进行编码。

2025-04-12 20:54:58 211

原创 BM25-ADPT和BM25T

查询算法继承实现

2025-04-10 22:36:08 148

原创 BM25检索

BM25类检索。

2025-04-10 21:49:40 188

原创 Anaconda安装Pyserini

配置环境变量CLASSPATH。下载缺失包,并进行移动。

2025-04-10 20:58:41 117

原创 conda配置拉取github代码

SSH 连接问题可能由于密钥选择不正确引起。[email protected]:castorini/pyserini.git替换成你自己的。登录到 GitHub,进入你的 Settings 页面。在左侧导航栏中,点击 SSH and GPG keys。[email protected]你的邮箱。点击 New SSH key 按钮,粘贴公钥并保存。远程仓库代码需要用git进行拉取。根据密钥保存位置找到密钥并复制。

2025-04-10 15:30:52 216

google-t5/t5-base模型问题

google-t5/t5-base模型问题

2025-04-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除