关于cl100k_base.tiktoken报错问题

requests.exceptions.ConnectTimeout: HTTPSConnectionPool(host='openaipublic.blob.core.windows.net', port=443): Max retries exceeded with url: /encodings/cl100k_base.tiktoken (Caused by ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x7fc8a456efb0>, 'Connection to openaipublic.blob.core.windows.net timed out. (connect timeout=None)'))

解决方法:
下载并执行cl100k_base.tiktoken,命令:wget https://openaipublic.blob.core.windows.net/encodings/cl100k_base.tiktoken
使得本地服务器有缓存即可

### cl100k_base 和 p50k_base 的具体含义及使用场景 #### cl100k_base 编码方案 `cl100k_base` 是一种由 OpenAI 提供的编码方式,主要用于 GPT-4、GPT-3.5 Turbo 等较新的语言模型以及一些嵌入式模型如 `text-embedding-ada-002` 中[^2]。该编码的核心目的是将输入文本转换为 token 序列以便于模型处理。以下是其主要特点: - **Token 数量**:`cl100k_base` 支持大约 10万种不同的 tokens,因此得名 “100k”。这使得它能够更精细地表示复杂的自然语言结构。 - **适用范围**:此编码广泛应用于最新的大型预训练模型中,提供更高的表达能力和兼容性。 示例代码展示如何加载并应用 `cl100k_base` 编码器: ```python import tiktoken encoding = tiktoken.get_encoding("cl100k_base") tokens = encoding.encode("Hello, world") print(tokens) # 输出: [9906, 11, 1917] ``` 上述代码片段展示了通过 Python 脚本获取指定字符串对应的 token ID 列表的过程[^1]。 #### p50k_base 编码方案 相比之下,`p50k_base` 属于早期版本的一种 tokenization 方法,通常关联到旧版的语言模型系列比如 Codex 或 InstructGPT 家族成员。它的特性包括但不限于以下几个方面: - **Token 总数较少**:相较于 `cl100k_base` 的规模缩小了一半以上,仅支持约 5万多个 unique tokens。 - **针对性优化领域不同**:虽然两者都基于字节对编码 (Byte Pair Encoding),但是由于历史发展和技术迭代的原因,在某些特定应用场景下可能表现有所差异。 值得注意的是,随着技术进步和需求变化,推荐优先考虑采用更新颖高效的解决方案即 `cl100k_base` 来满足大多数实际开发中的要求[^2]。 #### 使用场景对比总结 | 特征/属性 | cl100k_base | p50k_base | |------------------|--------------------------------------|-------------------------------------| | Token 集大小 | ~10万个 | ~5万个 | | 主要服务对象 | 新一代大模型 | 较老版本模型 | | 推荐程度 | 更加现代化的选择 | 只适合遗留系统的维护 | 综上所述,对于当前主流项目的实现而言,建议选用功能更为强大的 `cl100k_base` 进行操作;而对于那些仍然依赖传统架构或者特殊定制环境下的情况,则可以继续沿用原有的 `p50k_base` 方案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值