1 LangChain文档加载模块
1.1 加载本地PDF文件
(1)安装依赖
pip install pypdf -i https://pypi.tuna.tsinghua.edu.cn/simple
(2)代码实现
from langchain_community.document_loaders import PyPDFLoader
from dotenv import load_dotenv
load_dotenv()
loader = PyPDFLoader("P020230320547157228048.pdf")
pages = loader.load_and_split()
print(len(pages))
print(f"第0页:\n{pages[0]}") ## 也可通过 pages[0].page_content只获取本页内容
(3)结果如下
1.2 加载在线的PDF文件