所谓网络爬虫就是从特定的网页中获取你想要的东西,更确切的说,是从网页源代码中筛选你想要的东西。
本文将用比较简单的方法从网页中下载一些图片。
主要工具模块有:urllib.request 和html.parser 是的,真如你所见,不用正则表达式
步骤很简单:
1.获取网页源代码
2.从源代码中提取需要的信息(这里指图片的下载链接)
3.将图片链接打开并下载到目录。
抓的网址为:/iconsearch/book/ (下载图标)
代码如下:
1.获取网页源代码
# getimage.pyimport urllib.requestfrom html.parser import HTMLParserurl = /iconsearch/book/# pretend as a browserheaders = {User-Agent: Mozilla/5.0 (Windows NT 6.1;\WOW64; rv:23.0) Gecko/0101 Firefox/23.0 }url2 = urllib.request.Request(url, headers=headers)# get the source code form urlfb = urllib.request.urlopen(url2)souCode = fb.read().decode(