1200字范文 > 如何用python爬取_如何使用python 抓取雪球网页

如何用python爬取_如何使用python 抓取雪球网页

时间：2019-03-10 12:12:25

若吾皇

现在关注一个组合，就会有持仓变动的提示了。不过我觉得这事情挺有意思的。比如可以把很多持仓的数据都抓下来，做一些综合的分析，看看现在网站上被持有最多的股票是哪一支，某一天被调入最多的又是哪一支之类。于是我决定来抓抓看，顺便借此说说我通常用程序做自动抓取的过程。Step.1 分析页面要抓一个网页，首先自然是要“研究”这个网页。通常我会用两种方式：一个是 Chrome 的 Developer Tools。通过它里面的 Network 功能可以看到页面发出的所有网络请求，而大多数数据请求都会在 XHR 标签下。点击某一个请求，可以看到其具体信息，以及服务器的返回结果。很多网站在对于某些数据会有专门的请求接口，返回一组 json 或者 XML 格式的数据，供前台处理后显示。另一个就是直接查看网页源代码。通常浏览器的右键菜单里都有这个功能。从页面的 HTML 源码里直接寻找你要的数据，分析它格式，为抓取做准备。对于雪球上的一个组合页面粗略地看了一下它发出的请求，并没有如预想那样直接找到某个数据接口。看源代码，发现有这样一段：SNB.cubeInfo = {"id":10289,"name":"誓把老刀挑下位","symbol":"ZH010389" ...此处略过三千字... "created_date":".11.25"}SNB.cubePieData = [{"name":"汽车","weight":100,"color":"#537299"}];cubeInfo 是一个 json 格式的数据，看上去就是我们需要的内容。一般我会找个格式化 json 的网站把数据复制进去方便查看。这应该就是组合的持仓数据。那么接下来，一切似乎都简单了。只要直接发送网页请求，然后把其中 cubeInfo 这段文字取出，按 json 读出数据，就完成了抓取。甚至不用动用什么 BeautifulSoup、正则表达式。Step.2 获取页面分析完毕，开抓。直接 urllib.urlopen 向目标网页发送请求，读出网页。结果，失败了……看了下返回结果：403 ForbiddenYou don't have permission to access the URL on this server. Sorry for the inconvenience.被拒了，所以这种赤裸裸地请求是不行的。没关系，那就稍微包装一下：send_headers = {'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.81 Safari/537.36','Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8','Connection':'keep-alive','Host':'','Cookie':r'xxxxxx',}req = urllib2.Request(url, headers=send_headers)resp = urllib2.urlopen(req)html = resp.read()header 数据都可以从 Developer Tools 里拿到。这次顺利抓到页面内容。一般网站或多或少都会对请求来源做一些阻拦，通过加 header 可以搞定大部分情况。Step.3 提取数据因为这个数据比较明显，直接用通过一些字符串查找和截取操作就可以取出来。pos_start = html.find('SNB.cubeInfo = ') + len('SNB.cubeInfo = ')pos_end = html.find('SNB.cubePieData')data = html[pos_start:pos_end]dic = json.loads(data)dic 就是一个包含数据的字典对象。之后想干什么就随便你了。对于复杂一点的情况，可以通过 BeautifulSoup 来定位 html 标签。再不好办的，就用正则表达式，基本都可以解决掉。Step.4 处理数据因为我想对数据进行持久化存储，并且做展示和分析，所以我用了 django 里的 ORM 来处理抓下来的数据。# add Portfolioportfolio, c = models.Portfolio.objects.get_or_create(code=dic['symbol'])portfolio.name = dic['name']portfolio.earnings = dic['total_gain']portfolio.save()# add Stockstocks = dic['view_rebalancing']['holdings']for s in stocks:stock, c = models.Stock.objects.get_or_create(code=s['stock_symbol'])stock.name = s['stock_name']stock.count += 1stock.weight += s['weight']stock.save()Portfolio 记录下组合及其收益，Stock则记录每支股票的被收录数和总收录份额。对于抓取到的，一般也可以存在文件中，或者直接通过 SQL 存入数据库，视不同情况和个人喜好而定。Step.5 批量抓取前面的一套做下来，就完整地抓取了一组数据。要达到目的，还要设计一下批量抓取的程序。一个要解决的问题就是如何获得组合列表。这个可以再通过另一个抓取程序来实现。然后根据这些列表来循环抓取就可以了。若要细究，还要考虑列表如何保存和使用，如何处理抓取失败和重复抓取，如何控制抓取频率防止被封，可否并行抓取等等。Step.6 数据分析数据有了，你要怎么用它，这是个很大的问题。可以简单的统计现象，也可以想办法深入分析背后隐藏的逻辑。不多说，我也还只是在摸索之中。

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。