1200字范文 > python scrapy框架爬取豆瓣top250电影篇一Windows下建立Scrapy项目 pycharm编辑

python scrapy框架爬取豆瓣top250电影篇一Windows下建立Scrapy项目 pycharm编辑

时间：2024-04-22 10:37:17

1、打开cmd，进入到项目准备所放在的文件夹，执行命令：

scrapy startproject douban

然后就可以使用pycharm打开项目了

2、建立spider文件

cmd命令行进入到项目的spiders文件夹，执行：

scrapy genspider douban_spider url

scrapy genspider douban_spider

其中 spiderFileName为你所想创建的spider的文件名，url为你准备爬取的服务器域名，如

然后可以在pycharm中进行编写了，如果没有新建的文件，就同步一下项目（项目名右键）

3、命令行中运行（spiders目录下）：

scrapy crawl spiderName

其中，spiderName为你建立的spiderFileName.py文件中 name的值，默认与spiderFileName相同

4、在pycharm中直接运行项目：

可以在setting.py同目录下新建一个main.py文件，内容为：

后续在pycharm中需要运行项目时，只需要运行此文件即可

5、将爬到的数据存储到文件中，比如 test.json或test.csv或其它，在spiders文件夹下执行cmd指令：

可以在spiders目录下看到一个test.json文件，文件编码utf-8，如果用Excel打开csv文件为乱码，可以使用文本编辑器修改编码为utf-8(bom)即可

6、将爬到的数据存储到mongo数据库

mongodb GUI管理工具下载

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。