1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > python网络爬虫技术课件_Python网络爬虫技术第7章 Scrapy爬虫.ppt

python网络爬虫技术课件_Python网络爬虫技术第7章 Scrapy爬虫.ppt

时间:2021-09-01 15:53:38

相关推荐

python网络爬虫技术课件_Python网络爬虫技术第7章 Scrapy爬虫.ppt

Request函数常用的参数及其说明如所表示。 编写spider脚本 参数名称 说明 url 接收string。表示用于请求的网址。无默认值 callback 接收同一个对象中方法。表示用于回调用于响应的处理的方法,未指定则继续使用prase。无默认值 method 接收string。表示请求的方式。默认为“GET” headers 接收string,dict,list。表示请求的头信息,string表示单个头信息,list则表示多个头信息,如果为None,那么将不发送HTTP请求头信息。无默认值 meta 接收dict。表示Request.meta属性的初始值。如果给了该参数,dict将会浅拷贝。无默认值 cookies 接收list,dict。表示请求的cookies。无默认值 Scrapy设置允许自定义所有Scrapy组件,包括核心、扩展、管道和爬虫本身。设置的基础结构提供键值映射的全局命名空间,代码可以使用它从中提取配置值。用户可以通过不同的机制来填充设置,这些设置也是选择当前活动的Scrapy项目的机制之一。 在TipDMSpider项目的默认settings脚本中共有25个设置,每个设置的详细情况如表所示。 修改settings脚本 设置名称 说明 BOT_NAME 此Scrapy项目实施的bot的名称(也称为项目名称)。这将用于默认情况下构造User-Agent,也用于日志记录。默认为项目名称 SPIDER_MODULES Scrapy将使用的Spiders列表。默认为项目spiders目录,可存在多个目录 NEWSPIDER_MODULE 新的Spider位置。默认为项目spiders目录,仅接收string ROBOTSTXT_OBEY 是否启用robot.txt政策。默认为True CONCURRENT_REQUESTS Scrapy下载程序执行的并发(即同时)请求的最大数量。默认为16 设置名称 说明 DOWNLOAD_DELAY 下载器在从同一网站下载连续网页之前应等待的时间,主要用于限制爬取的速度。默认为3 CONCURRENT_REQUESTS_PER_DOMAIN 任何单个域执行的并发(同时)请求的最大数量。默认为16 CONCURRENT_REQUESTS_PER_IP 将对任何单个IP执行的并发(即同时)请求的最大数量。如果非零,则忽略CONCURRENT_REQUESTS_PER_DOMAIN设置,而改为使用此设置,表示并发限制将应用于每个IP,而不是每个域。默认为16 COOKIES_ENABLED 是否启用Cookie中间件,如果禁用,则不会将Cookie发送至Web服务器。默认为True TELNETCONSOLE_ENABLED 是否启用telnet控制台。默认为True DEFAULT_REQUEST_HEADERS 用于Scrapy的HTTP请求的默认标头。默认为{'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Accept-Language': 'en',} 修改settings脚本 设置名称 说明 SPIDER_MIDDLEWARES 项目中启用的Spider中间件的字典及其顺序。默认为{} DOWNLOADER_MIDDLEWARES 项目中启用的下载器中间件的字典及其顺序。默认为{} EXTENSIONS 项目中启用的扩展名及其顺序的字典。默认为{} ITEM_PIPELINES 使用的项目管道及其顺序的字典。默认为{} AUTOTHROTTLE_ENABLED 是否启用AutoThrottle扩展。默认为False AUTOTHROTTLE_START_DELAY 最初的下载延迟(以秒为单位)。默认为5.0 AUTOTHROTTLE_MAX_DELAY 在高延迟情况下设置的最大下载延迟(以秒为单位)。默认为60.0 AUTOTHROTTLE_TARGET_CONCURRENCY Scrapy应平行发送到远程网站的平均请求数量。默认为1.0 AUTOTHROTTLE_DEBUG 是否启用AutoThrottle调试模式,该模式将显示收到的每个响应的统计数据,以便用户实时调整调节参数。默认为False HTTPCACHE_ENABLED 是否启用HTTP缓存。默认为False 修改settings脚本 设置名称 说明 HTTPCACHE_ENABLED 是否启用HTTP缓存。默认为False HTTPCACHE_EXPIRATION_SECS 缓存请求的到期时间,以秒为单位。默认为0 HTTPCACHE_DIR 用于存储(低级别)HTTP缓存的目录,如果为空,则HT

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。