原 Python数据爬虫学习笔记（15）Scrapy常见命令及项目文件介绍

一、Scrapy常见命令提示符CMD命令：

（1）scrapy -h 查看指令帮助。

（2）scrapy fetch http://baidu.com 直接爬取特定网页。

（3）scrapy runspider scrapytest.py 运行特定爬虫（前提要使用cd .\XXX进入文件所在目录）。

（4）scrapy shell http://www.baidu.com --nolog 进入Python的Shell模式：（>>> exit()可以退出）。

（5）scrapy startproject firstScrapy 新建爬虫项目（（前提要使用cd .\XXX进入项目所在目录））。

（6）scrapy version 查看scrapy版本。

（7）scrapy view http://news.163.com 下载某个网页并用浏览器查看

（8）scrapy settings scrapy设置。

进入一个爬虫项目后：（cd .\项目文件夹）
（1）scrapy bench 测试程序。

（2）scrapy genspider -l 查看当前项目中有哪些爬虫模板basic基础模板 crawl自动爬虫模板 csvfeed处理CSV xmlfeed处理XML。

（3）scrapy genspider -t basic ZYH baidu.com 创建爬虫文件，限制只能爬百度。

（4）scrapy check ZYH 测试爬虫。

（5）scrapy crawl 运行爬虫。

（6）scrapy list 查看当前项目下可以使用的爬虫文件。

（7）scrapy edit ZYH 调用编辑器编辑爬虫文件。

（8）scrapy parse http://www.baidu.com 获取指定URL网址，并且进行处理和分析。

二、Scrapy项目文件介绍：

（1）__init__.py 初始化文件。

（2）items.py 目标文件，设定爬取内容。

（3）pipelines.py 数据的后续处理文件。

（4）settings.py 爬虫设置，如代理服务器，伪装浏览器，开启关闭cookies，怎样开启pipeline等。

（5）spiders：爬虫文件夹。

三、Scrapy测试代码：

from scrapy.spiders import Spider
class FirstSpider():
    name="first"
    allowed_domains=["baidu.com"] #允许爬的地址
    start_urls=["http://www.baidu.com",] #起始域名
    def parse(self,response):
        pass  #pass：不执行任何事情，只是占位符

小蜜蜂

原 Python数据爬虫学习笔记（15）Scrapy常见命令及项目文件介绍