1
首先安装urllib库,具体方法为 开始-运行-输入cmd 打开窗口提示符。输入命令pip urllib
2
接下来打开PyCharm ,新建一个python文件,导入模块,具体代码如下:
import urllib.request
import urllib.parse
import re
这里我们还需要导入 re模块用来写正则匹配
3
接下来用input代码和用户交互,让用户输入关键词,具体代码如下:
c = input("请输入关键词:")
4
由于是urf8编码,所以我们需要进行对字符串进行编码,具体代码如下:
c = urllib.parse.quote(c,encoding="utf8")
5
接下来进行请求的发送,具体代码如下:
url = "/sugrec?pre=1&p=3&ie=utf-8&json=1&prod=pc&from=pc_web&sugsid=1445,21121,30790,30908,30823&wd="+ c +"&req=2&csor=2&pwd=fu%27zhuang&cb=jQuery110205928031753090219_1583222582808&_=1583222582819"
res = urllib.request.urlopen(url)
6
建立一个data变量,用来存放读取的数据,具体代码如下:
data = res.read().decode("utf8")
7
经过以上代码,数据已经被全部提取出来,下面我们用正则单独提取有用数据,具体代码如下:
pat = pile(r'","q":"(.*?)"},{"type')
resc = re.findall(pat,data)
8
最后我们用for循环把数据全部提取出来,具体代码如下:
for i in resc:
print(i)
9
整体代码总结和运行效果:
import urllib.request
import urllib.parse
import re
c = input("请输入关键词:")
c = urllib.parse.quote(c,encoding="utf8")
url = "/sugrec?pre=1&p=3&ie=utf-8&json=1&prod=pc&from=pc_web&sugsid=1445,21121,30790,30908,30823&wd="+ c +"&req=2&csor=2&pwd=fu%27zhuang&cb=jQuery110205928031753090219_1583222582808&_=1583222582819"
res = urllib.request.urlopen(url)
data = res.read().decode("utf8")
pat = pile(r'","q":"(.*?)"},{"type')
resc = re.findall(pat,data)
for i in resc:
print(i)
END