1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 网络爬虫 spider程序 网络蜘蛛

网络爬虫 spider程序 网络蜘蛛

时间:2022-08-11 16:27:28

相关推荐

网络爬虫 spider程序 网络蜘蛛

问题?网络爬虫、spider程序、网络蜘蛛

定义:Spider又叫WebCrawler或者Robot,是一个沿着链接漫游Web 文档集合的程序。它一般驻留在服务器上,通过给定的一些URL,利用HTTP等标准协议读取相应文档,然后以文档中包括的所有未访问过的URL作为新的起点,继续进行漫游,直到没有满足条件的新URL为止。WebCrawler的主要功能是自动从Internet上的各Web 站点抓取Web文档并从该Web文档中提取一些信息来描述该Web文档,为搜索引擎站点的数据库服务器追加和更新数据提供原始数据,这些数据包括标题、长度、文件建立时间、HTML文件中的各种链接数目等。。。说白了就是能偶在网络服务器上抓取数据而存在的程序。

狭义:利用标准的http协议根据超链和Web文档检索的方法遍历万维网信息空间的软件程序.

广义:所有能利用http协议检索web文档的软件都称之为spider

抓取策略:

在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先(如下图所示)。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。两种策略的区别,下图的说明会更加明确。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。