hit56笔记-CSDN博客

原创中文逆文本标准化 (ITN) 标注规范

逆文本标准化（Inverse Text Normalization, ITN），或称“中文转数字”，是指将文本中的口语化、文本化的数字表达（如“一千二百三十”、“百分之五”、“十一点半”）转换为标准化的书面形式（如“1230”、“5%”、“11:30”）。核心目标：使转换后的文本更符合书面阅读习惯，并便于后续的机器处理。示例：今天十一点十一分 -> 今天11:11我国总人口约十三点八六亿 -> 我国总人口约13.86亿标签定义适用场景变化。

2025-09-03 18:19:15 621

原创语音识别后处理——如何语音断句加上标点、顺滑、ITN等

摘要：机器同传（MSI）中的断句技术是影响翻译质量与实时性的关键瓶颈。完整语义单元对神经机器翻译（如Transformer）至关重要，断句不准会导致上下文割裂与翻译错误。当前技术包括基于静音、语言模型预测、韵律特征及端到端混合模型，需权衡实时性与准确性。类似挑战也存在于机器人交互中，错误断句可能导致指令误解与执行风险。研究高效断句算法（如VAD、端点检测）对实现流畅人机交互具有重要意义。文中还对比了大模型在口语化文本翻译中的表现差异，并展示了不同正则引擎的性能对比。

2025-09-01 07:35:51 115

原创腾讯云的运维笔记——从yum的安装与更新源开始

【代码】腾讯云centos7.6的运维笔记——从yum的安装与更新源开始。

2025-08-30 16:42:29 351

原创部署Qwen-Image

【代码】部署Qwen-Image。

2025-08-19 22:04:07 208 1

原创 huggingface笔记

~/.cache/huggingface

2025-07-17 19:01:28 257

原创如何升级老mac系统

从上面的网站可以看到最多支持到Big Sur。

2025-07-10 06:36:59 220

原创如何安装gitlab

【代码】如何安装gitlab。

2025-07-01 18:35:14 97

原创类似screen的后台运行命令

【代码】类似screen的后台运行命令。

2025-05-08 11:42:03 179

原创使用linux的mail命令发送html格式的邮件

2、然后修改/etc/mail.rc，在文件末尾增加以下内容，指定邮箱和授权码。1、关闭本机的sendmail服务或者postfix服务。3、然后通过命令来发送邮件。3、授权码的获取方式。

2024-07-10 05:32:12 10285

原创地理位置笔记

以下代码用python2运行。

2024-07-02 08:58:50 294

原创如何根据经纬度查询所在城市

参考文献：

2024-06-28 17:02:29 496

原创 hive与dolphin笔记

【代码】hive笔记。

2024-06-17 15:36:41 633

原创 github的优秀项目

GitHub - keon/awesome-nlp: A curated list of resources dedicated to Natural Language Processing (NLP)GitHub - glample/tagger: Named Entity Recognition Toolhttps://github.com/guoguibing/librec 优秀推荐系统代码https://github.com/ottokart/punc

2024-05-27 13:57:58 765

原创模型蒸馏笔记

Hinton在NIPS2014提出了知识蒸馏（Knowledge Distillation）的概念，旨在把一个大模型或者多个模型ensemble学到的知识迁移到另一个轻量级单模型上，方便部署。简单的说就是用小模型去学习大模型的预测结果，而不是直接学习训练集中的label。

2024-05-26 20:20:47 869

原创语料清洗的难点——为什么gbk编码常用抽取正则表达式无法抽取“嘚瑟“的“嘚”字

原因是：“嘚”的二进制编码是874e，而4e的编码正好是大写字母N，经过lower()函数后，就变成n，对应的二进制编码是6e，而876e就是”噉”因此语料预处理时需要非常小心，大小写转换在语料处理流程中的顺序，以及中文字符的抽取的正则都需要多加检验才能保证语料的干净。而我们常用的gbk汉字抽取正则表达式为[\x80-\xff][\x80-\xff]原因是：现在很多年轻人喜欢用兔斯基表情-.-，在语料处理时-被删除了，但是.留下了。其中0a为\n字符，874e即“嘚”字的gbk编码。

2024-05-16 14:24:24 434

原创 streamlit报错：AxiosError: Request failed with status code 403

步骤三：重新启动你的streamlit网页。步骤一：创建config.toml。步骤二：加入以下内容。

2024-05-14 22:44:26 1707

原创 Firefly笔记

再次安装pip install mpi4py即可顺利通过。

2024-04-18 20:49:50 170

原创 deepspeed笔记

传统的深度学习，模型训练并行，是将模型参数复制多份到多张GPU上，只将数据拆分（如，torch的Dataparallel），这样就会有大量的显存冗余浪费。ZeRO Stage 3: 划分模型参数，或者说，不同的layer. ZeRO-3会在forward和backward的时候，自动将模型参数分配到多个memory。由于ZeRO-1只分配optimizer states(参数量很小)，实际使用的时候，我们一般只会考虑ZeRO-2和ZeRO-3。而ZeRO的实现方法，就是把参数占用，逻辑上分成三种类型。

2024-04-18 14:43:03 654

原创 isascii、isdecimal、isdigit、isnumeric、isprintable、islower、isupper、isalpha、isalnum到底有什么异同

在使用python进行文本预处理时，经常会用到以上函数，那么它们到底有什么异同？

2024-04-16 16:48:31 317

原创 linux 的split命令如何确保split出来的多个文件，每个文件都带上原始文件开头的第一行

split_with_header.sh如下。

2024-04-11 07:15:37 334

原创 hanlp的使用

hanlp最流行的是java的1.*版本（代码支持python和java），但是后来研发了2.0版本（代码仅支持python），2.0的版本是深度学习版本，功能也很多，但是貌似没有1.*那么流行。本文重点介绍1.*版本的使用（以v1.8.4为例）

2024-03-29 17:46:14 497

原创报错：failed to initialize nvml driver/library version mismatch

【代码】报错：failed to initialize nvml driver/library version mismatch。

2024-03-23 16:27:58 1507 1

原创关于搜索的笔记

参考文档：大众点评内容搜索算法优化的探索与实践

2024-03-22 06:27:39 183

原创如何快速比较两个文件有多少行不一样

【代码】如何快速比较两个文件有多少行不一样。

2024-03-10 18:35:44 276

原创报错：openai.error.RateLimitError: You exceeded your current quota, please check your plan and billing

出现这个问题的原因是主要是在OpenAI的账户余额不足导致的。点击下面的Billing，然后点击Add to credit balance，即可开始充值。充值完成后，把原有API key 删除，然后新建一个key。以后都用这个新key即可。

2024-03-10 07:32:19 3414

原创使用loguru的示例

【代码】使用loguru的示例。

2024-02-02 13:56:00 199

原创如何使用sort快速得对当前文件夹下所有文件大小进行排序

将上面的的代码保存至/usr/local/bin/sortfile，后面只需要执行sortfile命令即可。

2023-12-30 15:50:11 669

原创如何在iterm2的命令行中快速移动

Mac下iTerm2光标按照单词快速移动设置

2023-12-30 07:16:04 1313

原创报错:RuntimeError: CUDA error: no kernel image is available for execution on the device

例如，假设你的cuda版本是12.2，那么你可以将就着用下面的cuda12.1的torch版本。一般报这样的错，主要原因是torch版本和cuda版本不匹配导致的。，找到适合自己cuda的torch版本。

2023-12-28 10:12:25 8657

原创如何安装T4显卡的驱动

在。

2023-12-28 06:59:05 2192

原创 docker报错：Got permission denied while trying to connect to the Docker daemon socket at unix:///var/ru

这个错误通常表示用户尝试执行与Docker守护程序通信的操作，但没有足够的权限。

2023-12-22 22:20:04 7150 1

原创在打日志时，如何使用snowflake-id快速方便得随机获取query的唯一id

【代码】如何使用snowflake-id快速方便得随机获取query的唯一id。

2023-12-21 18:55:00 709

原创 go语言笔记

【代码】go语言笔记。

2023-12-01 22:59:11 171

原创词向量笔记

MTEB: Massive Text Embedding Benchmark词向量的维数d1一般取20~500之间

2023-11-20 14:43:30 335

原创 npm笔记

如何安装npmhttps://cloud.tencent.com/developer/article/1772306

2023-11-12 20:16:44 144

原创文本乱序的简单方法

在有些linux版本中自带的sort版本比较老，可能不包含这个选项-R。

2023-11-06 23:12:09 310

原创 linux系统运维小知识

【代码】linux系统如何定时关机。

2023-10-18 21:27:22 179

原创为什么有些人在学校期间成绩顶尖，走入社会却最终默默无闻

情商合作能力沟通表达能力格局与胸怀胆识看人识人的能力

2023-10-07 09:06:59 247

原创技术人做管理的思考

格鲁夫有过这样一句名言：一个经理人的产出，就等于他直接管辖和间接影响力所及的组织产出总和。a、b、c代表了管理杠杆率，A、B、C代表了各种管理活动。也就是说经理人的产出=组织产出的加权总和=a。

2023-09-13 22:10:53 172

原创 python多线程真是让人受够了

一、有8种不同的方法三、参考文献https://superfastpython.com/multiprocessing-pool-issue-tasks

2023-08-19 10:10:35 139

notepad++免费安装版本，免激活

2024-07-15

hanlp的data-for-1.7.5.zip

data.tar.gz 是hanlp的数据资源包，与官方网站的data.tar.gz下载后，可以使用以下md5值校验：09f8b55815c44e385cf7b8bff462cb93

2024-03-29

八数码问题(附实验报告文档,java实现)

八数码问题是人工智能经典难题之一。问题是在3×3 方格盘上，放有八个数码，剩下一个为空，每一空格其上下左右的数码可移至空格。问题给定初始位置和目标位置，要求通过一系列的数码移动，将初始位置转化为目标位置。本文介绍用A星算法，采用估计值h（n）（曼哈顿距离）和g(m)(当前深度)的和作为估计函数。

2010-04-21

Hopfield神经网络的实现(java实现)

本程序用Hopfield神经网络解决了八皇后的问题，附有实验报告、源代码以及程序实现所参考的原版论文。

2010-06-12

EM算法(附实验报告文档,java实现)

EM算法也就是期望最大化算法，是一种无指导的学习算法。This little software is the realization of EM algorithm in the application of tossiing the coin, which is described in the paper of Michael Collins in 1997. 下载包中包含：源代码、可执行程序、关于EM算法的paper

2010-04-21

哈米尔顿环问题(c++实现)

本程序针对“哈米尔顿环问题”构造了一棵n叉树，采用深度优先算法，实现了对此n叉树的非递归遍历程序输入：图gragh ，用邻接矩阵表示程序输出：是否是哈米尔顿图下载包中附源代码，可执行程序以及指导程序编写的搜索状态图

2010-05-15

条件随机场（史上最牛条件随机场教程）

条件随机场是目前机器学习模型中最有效的模型之一，广泛地应用于自然语言处理（例如词性标注、浅层句法分析）和图像模式识别（例如对复杂图像中物体的识别）等领域中。该教程详细地探讨了条件随机场的由来，把朴素贝叶斯(NB)、隐马尔科夫(HMM)、最大熵马尔科夫模型(MEMM)与条件随机场的关系探讨得十分详尽，让读者由浅入深，由简入繁，可谓浅显易懂、耳目一新、使人受益匪浅！

2010-03-30

朴素贝叶斯文本分类器(java实现)

本程序实现了基于朴素贝叶斯方法的文本分类，附有源代码、实验报告、可执行程序以及语料库（包括训练集和测试集）

2010-06-13

子集合问题(c++实现)

本程序针对“子集和问题”构造了一棵n叉树，采用深度优先算法，实现了对此n叉树的非递归遍历。下载包中附求解问题算法的伪代码、图、源程序等等。

2010-05-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人