PyTorch生成式人工智能(19)——自回归模型详解与实现
0. 前言
本节通过训练一个基于长短期记忆 (Long Short-Term Memory, LSTM) 网络的文本生成模型,系统介绍了自然语言处理 (Natuarl Language Processing
, NLP
) 任务的核心技术流程。首先对《安娜·卡列尼娜》文本进行分词和索引化处理,构建词元到整数的映射关系。模型采用序列到序列的训练方式,通过预测下一个词元来学习文本特征。在生成阶段,模型以自回归方式逐步生成文本,并可通过温度和 Top-K
采样调控生成结果的随机性与创造性。虽然 LSTM
模型存在长程依赖等局限性,但该实践完整涵盖了分词、词嵌入、序列预测等 NLP
基础技术,为后续学习 Transformer
和注意力机制等高级模型奠定基础。
1. 文本生成模型分析
训练文本的选择取决于期望的输出内容。本节将以一部长篇小说作为训练文本,它其丰富的内容使模型能够有效地学习和模仿特定的写作风格,大量的文本数据有助于提升模型对文本风格的掌握能力。同时,小说的篇幅通常不会过长,这有助于控制训练时间。对于本节的长短期记忆 (Long Short-Term Memory,