网上有很多网页版的,免费的Python教程电子书,特别想保存下来,写爬虫的话,文字可以取出来,但是漂亮的版面就丢了啊,要是想保留排版样式,那代码量可就太大了,再说我也不会写啊。想了一下,发现可以直接利用Chrome浏览器的自带功能,批量把网页打印成PDF,岂不是很方便,这样只需要利用selenium就可以啦。网上找了找,果然有大佬写出了教程。 参考教程地址:/new-june/p/14509601.html
爬取网页结构如图,代码如下
import requestsimport osimport timeimport randomimport reimport pdfkitfrom bs4