向AI转型的程序员都关注公众号 机器学习AI算法工程
项目背景
在文旅数字化进程中,传统导览系统面临非结构化数据处理能力不足、跨领域知识整合困难等挑战。本项目基于PaddleOCR、ERNIE与Deepseek模型,构建支持PDF/Word/图片/表格等多种文档类型的智能处理系统,通过多Agent协同机制实现文化解读与旅游规划的精准服务。
项目立意
多模态知识融合:整合OCR文字识别、表格解析、语义分块技术,实现文旅数据的深度结构化
双域知识治理:构建文化解读(历史/非遗/建筑)与旅游攻略(路线/交通/食宿)双知识库
智能决策协同:通过多Agent协作机制实现文化专家与旅游专家的智能调度
系统架构
核心功能模块
多格式解析架构:
PDF解析:采用PDFMiner的extract_text方法,保持段落结构
图像处理:PaddleOCR配置参数use_angle_cls=True, lang="ch"提升中文识别准确率
表格处理:对CSV/Excel文件实现行列元数据注入
技术架构
多层知识库构建
问答服务
本系统通过深度整合多模态数据处理与双域知识库,为无锡文旅行业打造了可扩展、高可靠、智能化的数字导览解决方案,日均处理游客咨询量提升,助力传统文旅服务向智慧化转型。
ERNIE-4.5强势来袭
实验手册
请先输入你的token
token获取
python knowledge_base_builder.py # 多层知识库构建
python rag_service.py # 启用问答服务
机器学习算法AI大数据技术
搜索公众号添加: datanlp
长按图片,识别二维码
阅读过本文的人还看了以下文章:
整理开源的中文大语言模型,以规模较小、可私有化部署、训练成本较低的模型为主
基于40万表格数据集TableBank,用MaskRCNN做表格检测
《深度学习入门:基于Python的理论与实现》高清中文PDF+源码
2019最新《PyTorch自然语言处理》英、中文版PDF+源码
《21个项目玩转深度学习:基于TensorFlow的实践详解》完整版PDF+附书代码
PyTorch深度学习快速实战入门《pytorch-handbook》
【下载】豆瓣评分8.1,《机器学习实战:基于Scikit-Learn和TensorFlow》
李沐大神开源《动手学深度学习》,加州伯克利深度学习(2019春)教材
【Keras】完整实现‘交通标志’分类、‘票据’分类两个项目,让你掌握深度学习图像分类
如何利用全新的决策树集成级联结构gcForest做特征工程并打分?
Machine Learning Yearning 中文翻译稿
斯坦福CS230官方指南:CNN、RNN及使用技巧速查(打印收藏)
中科院Kaggle全球文本匹配竞赛华人第1名团队-深度学习与特征工程
不断更新资源
深度学习、机器学习、数据分析、python
搜索公众号添加: datayx