需求分析
微博主页
抓取的内容包括:微博发布的时间,正文(仅提取文字),转发数,评论数,点赞数
抓取的内容
数据是怎么加载的
新浪微博的数据是用ajax异步下拉加载的,在chrome的调试模式下可捕捉到相应的请求:
xhr请求
分析这些url的规律:
/api/container/getIndex?type=uid&value=1665372775&containerid=1076031665372775&page=2
/api/container/getIndex?type=uid&value=1665372775&containerid=1076031665372775&page=3
发现除了page参数的不同,其他都是一致的
数据的结构分析