啊喂,你们不要只收藏不点赞啊 = =
稍微更新一下,多说两句。
虽然爬取移动端比较简单,但是爬一点难的东西对身体好对吧。
总结一下这个模拟登陆涉及的东西:
1.用户名经过base64加密。
2.输入用户名后会进行预登陆操作。
3.密码明文与一些其它的字符串参数拼接后,使用RSA加密,再提交给服务器,其中RSA公钥和各种参数都可以从预登陆操作返回的结果中找到。
4.会出现两个跳转。
所以思路如下:
1.用base64加密用户名之后仿造一个预登陆,用正则匹配得到各项参数。
2.用上一步里得到的参数,拼接密码明文,再用RSA加密得到密文,并构造POST的form data。
3.使用构造好的form data仿造登录请求
4.用正则匹配获得跳转的目标链接。
5.为了保持登陆,用cookiejar一类的工具绑定一个cookie就行了。
======以下原答案=======
刚写完这个爬虫。。
新浪这东西做的煞是恶心。
代码和分析过程写在我blog里了。
//03/25/sina-login/
[更新:我的博客改版了,以前的旧文章全部删除,如果您是在有兴趣,可以私信我一个邮箱,我把备份发送给您]
测试可以用。
有理解不对的地方欢迎聚聚们指正
。。
你说的最后那段代码,是从重定向页面中获取新的url然后继续登陆,然而少了一步喔。