首页 >  jsp/java设计  > 正文

java网络爬虫的搜索引擎设计

本文从搜索引擎的应用出发,探讨了网络蜘蛛在搜索引擎中的作用和地住,提出了网络蜘蛛的功能和设计要求。在对网络蜘蛛系统结构和工作原理所作分析的基础上,研究了页面爬取、解析等策略和算法,并使用Java实现了一个网络蜘蛛的程序,对其运行结果做了分析。

计算机毕业设计
网络爬虫是搜索引擎的核心部分,其名称出自Spider 的意译, 具有相同词义的词语还有Crawler, robo ts, bot s, wanderer 等等.网络爬虫定义有广义和狭义之分, 狭义上的定义为利用标准的http 协议根据超级链接和Web 文档检索的方法遍历万维网信息空间的软件程序; 而广义则是所有能利用http 协议检索Web 文档的软件都称之为网络爬虫.网络爬虫是一个功能很强的自动提取网页的程序, 它为搜索引擎从万维网上下载网页, 是搜索引擎的重要组成. 它通过请求站点上的HTML 文档访问某一站点. 它遍历W eb 空间, 不断从一个站点移动到另一个站点, 自动建立索引, 并加入到网页数据库中. 网络爬虫进入某个超级文本时, 它利用HTML语言的标记结构来搜索信息及获取指向其他超级文本的U RL 地址, 可以完全不依赖用户干预实现网络上的自动“爬行”和搜索。


以上是本题目部分介绍,若需要完整版或不符合您的要求,请联系客服QQ:242219979

上一篇:大学生理财信息管理系统

下一篇:药品库房管理系统的进销存

相关文章: