探索大语言模型在高校图书馆问答系统中的应用实践,重点探索RAG(Retrieval-Augmented Generation,检索增强生成)、Text-to-SQL在非结构化和结构化数据的检索问答方面的应用,探索多源数据的融合问答。在此基础上,构建一个高校图书馆问答系统,提升图书馆馆员服务效率,同时,也可为类似场景的智能问答系统设计提供参考。
要求:
深入理解大语言模型的基本原理,RAG原理及实现,Text-to-SQL原理及实现,了解前沿发展。掌握大语言模型应用开发常用框架和工具的使用方法。
设计并实现高校图书馆智能问答系统。
总结问题,撰写规范、清晰的论文。
二、主要工作内容
查阅文献资料,学习大语言模型的原理,大模型应用开发框架(如LangChain等)使用方法,RAG原理和实现方法,向量数据库的构建,Text-to-SQL,及开源大模型本地部署等相关知识。
确定图书馆智能问答系统的核心功能(知识库管理、业务知识咨询、馆藏信息咨询等),集成大语言模型,结合RAG框架,Text-to-SQL工具,搭建一个可以与用户交互的前后端系统。
研究了解大语言模型生成文本质量的评估评价方法,评估系统。
撰写毕业论文。
三、主要技术指标(或主要论点)
加入RAG后,大语言模型针对图书馆的业务知识回答在精确性和实时性方面都有提升。使用Text-to-SQL方法后,可以使用自然语言完成简单的单表数据查询,提供一种新的人机数据交互方式。
四、进度计划
1.2024年10月10日至2024年11月14日 确定选题,完成双选。
2.2024年11月15日至2024年12月15日 完成并提交任务书。
3.2024年12月16日至2025年01月10日 完成开题报告工作。
4.2025年01月11日至2025年02月28日 完成文献综述及外文翻译。
5.2025年03月01日至2025年03月30日 完成相关系统或硬件的设计。
6.2025年04月01日至2025年04月14日 完成初稿并交给指导老师初审,学生根据指导老师意见完善毕业设计(论文),优化相关系统或硬件。
7.2025年4月15日至2025年04月30日 完成查重稿毕业设计(论文)并交给指导老师审核,优化相关系统或硬件。
8.2025年5月6日至2025年5月20日 审查学生毕业答辩资格,并开展答辩工作。
五、主要参考资料
[1] Vaswani A , Shazeer N , Parmar N ,et al.Attention Is All You Need[J].arXiv, 2017.DOI:10.48550/arXiv.1706.03762.
[2] 张成文.大模型导论[M].人民邮电出版社,2024.
[3] 高强文.大模型项目实战[M].机械工业出版社,2024.
[4] Gupta S , Ranjan R , Singh S N .A Comprehensive Survey of Retrieval-Augmented Generation (RAG): Evolution, Current Landscape and Future Directions[J]. 2024.
[5]Yunfan Gao, Yun Xiong, Xinyu Gao, Kangxiang Jia, Jinliu Pan, Yuxi Bi, Yi Dai, Jiawei Sun, Meng Wang, Haofen Wang,Retrieval-Augmented Generation for Large Language Models: A Survey[J]. 2024.
[6] 曾钰城. 基于多任务预训练模型的Text2SQL生成方法研究[D].哈尔滨工业大学,2023.
[7]余伟.Text-to-SQL转换关键技术研究[D].国防科技大学,2021.