/detail/lostchris/9432552
上面是案例。。。
过年的时候一直想弄点网络爬虫好为今年毕业论文提供数据准备。。。
楼主先后试过httpClient,jsoup,htmlunit发现还是jsoup好用,
httpClient用起来繁琐,还有个乱码问题要解决。。。
htmlunit虽然功能强大能获取执行JS后的网页内容,但是非常不稳定,加上htmlunit执行JS时间不可知,htmlunit对JS格式要求严格,部分网站采用的JS格式不太标准(不太碍事的那种),htmlunit就会抛错,还有一点htmlunit耗时太长。。。
相对其他两种,jsoup使用起来简洁容易上手,soup 也是一款基于Java 的HTML解析器&