首页 >  毕业论文  > 正文

基于nutch的搜索引擎的设计与实现

搜索引擎技术一直是互联网研究的热点。伴随着互联网的日益普及和信息的爆炸式增长,网络搜索引擎越来越引起人们的重视。本文对搜索引擎技术进行了深入的分析,详细分析了Nutch软件包的工作机制。并从中文信息处理的需求考虑,对Nutch软件包进行了改进,设计并实现了一个具有良好扩展性的搜索引擎系统。首先,本系统中引入了中文分词技术,改善了原搜索引擎系统的查询准确度。其次,本文在PageRank排序算法和网页相关性基础上设计了排序策略。最后,本文设计了用户接口模块,改善了搜索引擎系统的整体性能。
[关键词] 搜索引擎;Nutch;中文分词;索引;检索;
1.4  本文研究的主要内容
本文围绕基于Web搜索引擎技术,研究并设计了一个灵活、可配置、具有良好扩展性的全文搜索引擎系统。具有如下几个方面的内容:
(1)通过对搜索引擎系统相关技术分析研究,对搜索引擎技术的体系结构及工作流程进行了详细讨论。重点研究分析了智能化中文搜索引擎的核心技术包括中文分词技术、检索技术及用户接口技术等,为下一步的研究奠定了理论基础。
(2)通过对现有中文分词技术及Nutch软件包中的词法分析器的研究分析,在正向最大匹配算法的基础上设计并实现了一个中文词法分析器,并将该中文词法分析器无缝的结合到所开发的搜索引擎系统中,通过与Nutch原有的词法分析器对比分析,本课题设计的词法分析器改善了搜索引擎系统的查询准确度。
(3)针对信息检索模块中的排序算法做了优化,本文从链接分析和网页相关性两个方面对排序算法进行了深入研究,在此基础上提出了一种改进方案,将PageRank算法和原有的基于内容的相关度排序算法结合,克服了PageRank算法等一些算法和查询关键字无关的缺陷,将页面重要性和网页的相关性相结合,更加准确的模拟了用户浏览页面的习惯。
(4)针对用户接口模块的优化问题进行了深入研究,对用户搜索界面进行了进一步的修改,改善了搜索引擎系统的整体性能和用户检索的准确度。
目    录
1 背景与意义 1
1.1 研究背景 1
1.2 国内外研究现状 1
1.3 研究的目的和意义 2
1.4 本文研究的主要内容 2
2 需求分析 3
2.1 可行性分析 3
2.2 搜索引擎工作原理 4
2.3 Nutch相关技术与机制分析 6
2.3.1 Nutch技术基础 6
2.3.2 Nutch体系结构 6
2.3.3 Nutch工作流程 7
2.4 基于Nutch的搜索引擎的需求分析 8
2.4.1 系统总体目标 8
2.4.2 系统功能目标 8
2.4.3 系统结构分析 9
2.4.4 系统性能要求 9
3 系统设计 10
3.1 系统总体架构设计 10
3.2 数据获取 11
3.3 信息索引 13
3.3.1 索引基本结构 13
3.3.2 本系统的索引 14
3.4 查询处理 15
3.4.1 信息查询原理 15
3.4.2 本系统的查询 16
3.4.3 中文分词技术 16
3.5 结果排序 18
3.5.1 Nutch排序机制研究 18
3.5.2 排序修改方法设计 19
4 编码与实现 20
4.1 开发环境 20
4.2 数据抓取与搜索测试 21
4.2.1 运行Crawl命令抓取网站内容 21
4.2.2 使用Tomcat进行搜索测试 23
4.3 系统关键技术及实现 23
4.3.1 中文分词技术实现 23
4.3.2 排序修改方法实现 25
4.3.3 用户界面模块 26
5 系统测试与运行 28
5.1 概述 28
5.2 测试方法 28
5.3 测试技术 28
5.4 测试用例设计 29
6 总结与展望 29
6.1 总结 29
6.2 展望 30
结束语 31
参考文献 32
附录 33
致谢 36
 

以上是本题目部分介绍,若需要完整版或不符合您的要求,请联系客服QQ:242219979

上一篇:DES加密算法的研究与实现

下一篇:python基金监测系统设计与实现

相关文章: