1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 解析python网络爬虫 黑马程序员 pdf_零基础学习网络爬虫知识(一)

解析python网络爬虫 黑马程序员 pdf_零基础学习网络爬虫知识(一)

时间:2019-05-01 08:08:13

相关推荐

解析python网络爬虫 黑马程序员 pdf_零基础学习网络爬虫知识(一)

1、网络爬虫的定义

网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。【注:需要更多免费学习视频+资料+源码,请加QQ:2632311208】

2、网络爬虫与浏览器相似之处

网络爬虫的抓取过程可以理解为 模拟浏览器操作的过程。

浏览器的主要功能就是向服务器发出请求,在浏览器窗口中展示您选择的网络资源。这里所说的资源一般是指 HTML 文档,也可以是 PDF、图片或其他的类型。

资源的位置由用户使用 URI(统一资源标示符)指定。

浏览器解释并显示HTML文件的方式是在HTML和CSS规范中指定的。这些规范由网络标准化组织 W3C(万维网联盟)进行维护。

3、网络爬虫抓什么

一般来讲,抓取的内容主要来源于网页,目前,随着这几年移动互联网的发展,越来越多信息来源于移动互联网App、H5等,所以爬虫就不止局限于一定要抓取解析网页,还有移动互联网app、H5等的网络请求进行抓取

对网络爬虫而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。

4、了解网络请求

网络爬虫以HTTP、HTTPS请求为主,读取网页内容,提取有用的价值,内容一般分为两部分,非结构化的文本,或结构化的文本。

超文本传输协议(HTTP,HyperText Transfer Protocol)是互联网上应用

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。