安装
pip install uv
安装python环境
uv python install 3.12
uv python list
初始化项目
uv init hello-world
cd hello-world
安装依赖
uv add requests
uv add 'requests==2.31.0'
# pip install tokenizers
uv add 'tokenizers==0.21.2' --index https://mirrors.aliyun.com/pypi/simple/
main.py 代码
Transformer结构–输入编码(BPE,PE)
import tiktoken
def main():
print("Hello from hello-world!")
# 获取编码
enc = tiktoken.get_encoding("cl100k_base")
# 编码文本
tokens = enc.encode("tiktoken是OpenAI开源的一个快速分词工具。它将一个文本字符串(例如“tiktoken很棒!”)和一个编码(例如“cl100k_base”)作为输入,然后将字符串拆分为标记列表。-----aa aa aa bb bb bb cc cc aabbcc aabb ")
print(tokens) # 输出: [24912, 2375]
# 解码文本
text = enc.decode(tokens)
print(text) # 输出: hello world
if __name__ == "__main__":
main()
运行
uv run main.py