欢迎光临!
Rss订阅设为首页请您留言

计算机源码设计

精品源码设计搜索:
您当前位置:网站首页 >> java,jsp类 >> 518Java基于网络爬虫搜索引擎系统设计

计算机源码设计项目-518Java基于网络爬虫搜索引擎系统设计

2014-08-25 14:46:46 来源:计算机源码设计网 浏览:25
如果你满意这个设计可以分享到:
以下是本计算机源码设计介绍,若对此项目感兴趣,请联系QQ:2426671765 message

【友情提示】大神ssm项目都可以升级springboot,所有java网站项目可以支持Eclipse,Idea和myEclipse工具!

【专业优势】18年功力源码技术大神,坐阵亲临指导,远程协助包100%成功运行!

程序测试软件: MyEclipse或JBuilder
  网络爬虫沿着WWW文件间的链接在网上漫游,记录URL、文件的简明概要、关键字或索引。其漫游结果是形成一个很大的本地数据库,你可以通过WWW浏览器访问与该网络爬虫相配合的检索服务器对其结果进行查询。但并不是所有的检索服务器都采用robot只有那些自动在网上漫游并形成自己的数据库的那些才是。每个robot完成的功能都不一样所以它们的本地索引结果也就不同。Robot的运行方式是这样的:从一个或一组URL开始,访问该URL并进行本地索引同时记录该URL所指HTML文件中所有新的URL锚链(anchor);然后再以这些新的URL为起始点,继续进行本地索引,直到再没有满足条件的新URL为止。在记录新URL时,可以进行分析和判断,从中去掉不需要或不想要的URL,这不但提高了本地索引的速度,也减少了索引文件在本地所占用的磁盘空间。虽然robot和spider功能很强,但如果有一组URL地址没有被组~bURL所链接到,那么robot和spider就找不到它们。同时由于robot和spider不能更新太快(因为网络带宽有限,如果更新太快,那么其他用户就会受到影响),难免有不能及时加入的新WWW地址,所以很多拥有robot和spider的WWW索引和检索服务站点同时提供一项由用户加入新WWW地址的功能。如果仅仅是从远程获得数据,实现一个robot并不很难。但由于每个robot都是与一定的索引和检索技术相联系的,所以它必须要能与其它模块相配合工作。因而其实现时要考虑很多相关技术。一般来说,一个索引和检索服务器在实现时要涉及的主要技术有如下几方面:
(1)HTTP (HyperText Transfer Protoco1)协议。它是WWW上数据传输的标准协议。通过它,我们可以跟WWW服务器进行信息交换:从服务器获得我们所要的各种信息,并将我们的要求发给服务器。
(2)HTML(HyperText Markup Language)语言。它是WWW服务器所发回各种数据的主要描述语言, 因为搜索引擎的主要搜索目标是文本,所以必须对HTML进行解析,提取出相应的数据。
(3)分词技术。为了提取关键字或者知识,必须分隔出单个的词和句子。(4)公共网关接口CGI(Conlmon Gateway Interface)。通过它,我们可以执行WWW服务器上的程序:我们把查询要求传递给HTTP服务器,HTTP~务器根据客户的请求执行CGI程序CG I程序根据通过HTTP服务器传递的查询要求对数据库进行操作,并把查询结果以HTML的形式传递回HTTP客户。
计算机源码设计实例-518Java基于网络爬虫搜索引擎系统设计截图


qq空间详情地址:计算机源码设计大神出品

优酷视频演示:

国内香港美国空间

java爬虫程序-1搜索主页
计算机源码设计实例-518Java基于网络爬虫搜索引擎系统设计截图


java爬虫程序-2搜索结果
计算机源码设计实例-518Java基于网络爬虫搜索引擎系统设计截图


java爬虫程序-3源码截图
计算机源码设计实例-518Java基于网络爬虫搜索引擎系统设计截图

以上是本计算机源码设计介绍,若对此项目感兴趣,请联系QQ:2426671765 message

大神联系方式

发表评论发表计算机源码设计评论
网名:
评论:
验证:
共有0人对本计算机源码设计发表评论查看所有评论(网友评论仅供表达个人看法,并不表明本站同意其观点或证实其描述)
版权所有:计算机源码设计网 CopyRight  © 2007-2023 All Rights Reserved 赣ICP备17010611号-1   360网站安全检测平台
用心做计算机源码设计