前言:在上两篇博客中,我们解决了大量信息的爬取问题分布式爬虫,用scrapy_redis把项目分别部署放到多个远程服务器上,提高了爬取数据的速度。又做到了使用scrapyd,在远程服务器上安装scrapyd,启动scrapyd服务,把scrapy项目通过scrapyd打包上传到远程服务主机上,然后我们就可以通过请求scrapyd提供的各种API去控制爬虫项目的运行、停止或删除等操作!

      但是尼,如果不是程序员想要运行这个爬虫项目或者说控制爬虫项目,我们难道还要一步一步教他们去写运行代码部署爬虫项目去启动服务等他们感觉复杂难懂的操作?(可能还要讲清楚每一步是干嘛)  当然我们拒绝这样干的,所以又出现了一个即使不懂代码的小伙伴,但是通过“点点点”也能控制爬虫项目的服务框架——Gerapy

你想问什么是“点点点”?  就是你只要懂点计算机基础,会稍微懂点电脑,点点按钮,网页里点点这点点那,就能控制爬虫项目。

没错,就是这么方便,就像是白痴框架一样,一条龙服务……

首次尼,Gerapy 是一款分布式爬虫管理框架,支持 Python 3,基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API等,Gerapy 可以帮助我们:更方便的控制爬虫运行,更直观的查看爬虫状态,实时的查看爬去结果,简单的实现项目部署,统一的实现主机管理,甚至可以帮我们编写爬虫代码!接下来,我就简单的介绍一下我们gerapy的安装使用

1:下载gerapy包:pip install gerapy   (当然如果是用的python虚拟环境,需要先进入虚拟环境,再进行下载包)

2:随意在c盘或者d盘(甚至是桌面)创建一个文件,文件名最好见名知意,我们这个文件是用来存放gerapy里的项目或者日志等信息文件,所以名字例如:gerapy_spider,在文件里按住shift键右键进入cdm命令框,然后进行gerapy初始化,命令为:gerapy init  

然后文件里会多一个gerapy文件夹,继续在刚刚打开的cmd里进入gerapy,命令:cd gerapy   然后我们创建数据库:gerapy migrate   然后就是如下文件内容:

笔记十六:“点点点”就能做到的一款分布式爬虫管理框架——Gerapy-LMLPHP

 3:然后我们就可以启动gerapy了,命令:gerapy runserver   然后就会出现如下画面,并且显示的有服务网页端口8000。

笔记十六:“点点点”就能做到的一款分布式爬虫管理框架——Gerapy-LMLPHP

 

4:那我们就访问这个服务ip,在网页中输入127.0.0.1:8000  然后会出现如下画面,默认的是英文界面,英文不好的右上角可以装换为中文 ,然后如下所示,可以显示连接服务成功的有几个,失败的有几个,项目有几个,我们自己要部署项目上去,首先要创建本地的,所以如下第二个图,在主机管理里面点击右上角的“创建”,出现第三个图,填写连接名称,地址,端口,然后点击创建,显示成功后,刷新页面即首页会显示有连接成功的主机有一个

笔记十六:“点点点”就能做到的一款分布式爬虫管理框架——Gerapy-LMLPHP

笔记十六:“点点点”就能做到的一款分布式爬虫管理框架——Gerapy-LMLPHP

笔记十六:“点点点”就能做到的一款分布式爬虫管理框架——Gerapy-LMLPHP

 5:接着我们需要把项目放在这上面,只需要把我们的项目目录整体复制到我们第三步骤创建的projects文件夹里,如下所示,

笔记十六:“点点点”就能做到的一款分布式爬虫管理框架——Gerapy-LMLPHP

然后再重新刷新我们的页面,项目管理里面就会出现我们刚刚放进projects里的项目(也可以点击右上角创建,会自己生成基本代码):

笔记十六:“点点点”就能做到的一款分布式爬虫管理框架——Gerapy-LMLPHP

 6:项目就可以直接通过点点来运行了,首先先将项目部署到你需要运行的电脑上,当然分布式的就是第四步中,可以和其他电脑建立连接,然后把项目部署到连接的多个电脑上,点击上图中的deploy即部署,然后进入新的页面,选中你把项目打包上的连接的,然后填写描述,点击打包,打包后点击右上角的部署,出现打包和部署成功才算成功!当然可以点开连接查看项目是否上传成功!

笔记十六:“点点点”就能做到的一款分布式爬虫管理框架——Gerapy-LMLPHP

笔记十六:“点点点”就能做到的一款分布式爬虫管理框架——Gerapy-LMLPHP 

7:最后可以进入连接查看自己的部署上去的项目,点击运行,下面就会有日志出现,也可以停止,如下图:

笔记十六:“点点点”就能做到的一款分布式爬虫管理框架——Gerapy-LMLPHP

所以说,这个gerapy是非常方便的,通过把gerapy启动,然后拖到peoject文件夹里,进行打包部署到连接上,最后运行结束。

上述纯属初学者的我总结整理的,如有错误,请在评论区指教,谢谢!

10-03 15:14