【友情提示】大神ssm项目都可以升级springboot,所有java网站项目可以支持Eclipse,Idea和myEclipse工具!
【专业优势】18年功力源码技术大神,坐阵亲临指导,远程协助包100%成功运行!
网络爬虫沿着WWW文件间的链接在网上漫游,记录URL、文件的简明概要、关键字或索引。其漫游结果是形成一个很大的本地数据库,你可以通过WWW浏览器访问与该网络爬虫相配合的检索服务器对其结果进行查询。但并不是所有的检索服务器都采用robot只有那些自动在网上漫游并形成自己的数据库的那些才是。每个robot完成的功能都不一样所以它们的本地索引结果也就不同。Robot的运行方式是这样的:从一个或一组URL开始,访问该URL并进行本地索引同时记录该URL所指HTML文件中所有新的URL锚链(anchor);然后再以这些新的URL为起始点,继续进行本地索引,直到再没有满足条件的新URL为止。在记录新URL时,可以进行分析和判断,从中去掉不需要或不想要的URL,这不但提高了本地索引的速度,也减少了索引文件在本地所占用的磁盘空间。虽然robot和spider功能很强,但如果有一组URL地址没有被组~bURL所链接到,那么robot和spider就找不到它们。同时由于robot和spider不能更新太快(因为网络带宽有限,如果更新太快,那么其他用户就会受到影响),难免有不能及时加入的新WWW地址,所以很多拥有robot和spider的WWW索引和检索服务站点同时提供一项由用户加入新WWW地址的功能。如果仅仅是从远程获得数据,实现一个robot并不很难。但由于每个robot都是与一定的索引和检索技术相联系的,所以它必须要能与其它模块相配合工作。因而其实现时要考虑很多相关技术。一般来说,一个索引和检索服务器在实现时要涉及的主要技术有如下几方面:
(1)HTTP (HyperText Transfer Protoco1)协议。它是WWW上数据传输的标准协议。通过它,我们可以跟WWW服务器进行信息交换:从服务器获得我们所要的各种信息,并将我们的要求发给服务器。
(2)HTML(HyperText Markup Language)语言。它是WWW服务器所发回各种数据的主要描述语言, 因为搜索引擎的主要搜索目标是文本,所以必须对HTML进行解析,提取出相应的数据。
(3)分词技术。为了提取关键字或者知识,必须分隔出单个的词和句子。(4)公共网关接口CGI(Conlmon Gateway Interface)。通过它,我们可以执行WWW服务器上的程序:我们把查询要求传递给HTTP服务器,HTTP~务器根据客户的请求执行CGI程序CG I程序根据通过HTTP服务器传递的查询要求对数据库进行操作,并把查询结果以HTML的形式传递回HTTP客户。

qq空间详情地址:计算机源码设计大神出品
优酷视频演示:

java爬虫程序-1搜索主页

java爬虫程序-2搜索结果

java爬虫程序-3源码截图





- 966大神JSP基于SSM宠物医生在线答疑网站2018-11-13 14:49:41
- JSP1002仓储管理系统2011-10-25 13:28:09
- 598JSP网上报名在线报名系统2016-06-21 12:55:01
- 962JSP基于SSM学校教务选课成绩管理系统2018-10-27 21:14:03
- jsp博客信息网站系统2011-10-19 10:35:03
- 905大神JSP基于SSM项目分组课题管理系统设计2018-07-09 16:21:33
- M032大神JSP基于SSM电子产品网上购物系统【需定制】2018-09-18 16:15:08
- 595大神JSP基于SSH2人事工资管理系统2016-02-16 18:15:35

