学习目标:
各爬虫管理平台了解
- scrapydweb
- gerapy
- crawlab
各爬虫管理平台的本地搭建
Windows 下的 WordPress 搭建
爬虫管理平台了解:
scrapydweb:
用于 Scrapyd 实施管理的 Web 应用程序, 支持 Scrapy 日志分析和可视化
GitHub 地址: https://github.com/my8100/scrapydweb.git
gerapy:
基于 Scrapy,Scrapyd,Scrapyd-Client,Scrapyd-API,Django 和 vue.js 的分布式爬虫管理框架
相关的配置在我之前博客地址: https://www.cnblogs.com/xbhog/p/13336651.html
该项目 GitHub 地址: https://github.com/Gerapy/Gerapy.git
crawlab:
基于 Golang 的分布式爬虫管理平台, 支持多种编程语言以及多种爬虫框架.
文档地址: https://docs.crawlab.cn/zh/
GitHub 地址: https://github.com/crawlab-team/crawlab.git
注意: 前两个框架的搭建基于 Scrapyd, 如果不知道怎么配置可以看我之前写的博客: https://www.cnblogs.com/xbhog/p/13336651.html
爬虫管理平台的本地搭建:
scrapydweb 搭建:
安装: pip install scrapydweb -i https://pypi.doubanio.com/simple
先打开 scrapyd(命令行输入)
再输入 scrapydweb
界面效果:
部署安装网上教程很多, 不多赘述
gerapy
相关的配置在我之前博客地址: https://www.cnblogs.com/xbhog/p/13336651.html
crawlab:(配置安装官方给的很详细, 这里简单说下)
首先把代码从远程仓库 clone 下来: Git clone 地址 / 复制地址到 pycharm 中
- # 官方推荐几种安装方式:
- Docker(入门简单, 推荐)
- Kubernetes(多机器部署, 推荐)
直接部署 (理解原理)
开发模式 (开发调试)
多节点部署
# 个人选择 docker, 该项目配置环境过多, 怕给本地造成冲突
docker 的安装:
安装地址: https://www.docker.com/products/docker-desktop
安装环境: 本地虚拟化以及 hyper-V 需要打开, 如图所示
默认安装即可
相关详细链接 (菜鸟教程: https://www.runoob.com/docker/windows-docker-install.html)
安装 docker-compose 包: pip install docker-compose
在根目录下测试:
docker-compose ps
正常为空
- Name Command State Ports
- ------------------------------
- --------------------------------
安装并启动: docker-compose up -d
http://127.0.0.1:8080/#/login 进入即可
Windows 下的 WordPress 搭建:
环境准备:
wampserver 软件
WordPress 源码
百度网盘地址: 链接: https://pan.baidu.com/s/1mAFu8XrNSfpyL_VgSvb8VA 提取码: 1234
搭建步骤:
打开 wampserver.exe, 默认安装 (注意在安装路径的时候不能有中文文件夹)
最后会有四个弹窗:
是否更改浏览器, 该软件默认浏览器是 explorer, 我们点击是, 选择谷歌浏览器;
选择 nodpad++, 选择否.
安装完成后, 点击桌面图标运行, 程序颜色表示状态
红色: 配置没启动
橙色: 配置启动一部分
绿色: 配置完全启动
绿色后, 单机程序图标, 点击 localhost 进入网页
将预先准备的 WordPress 安装包放到 wampserver/www 文件夹下
进入网页地址输入: localhost/WordPress
点击开始进入配置页面:
上面配置先放置, 我们先进行数据库设置
输入用户名 root, 密码空, 点击执行.
进入账户下的 root, 修改权限, 修改密码
我们需要对应之前的数据库名称 (WordPress), 所以新建数据库
设置成功后返回之前的数据库登录页面, 填写相关信息:
提交进入登陆界面配置:
填写完成进入登陆界面
登陆: 前后台界面
来源: https://www.cnblogs.com/xbhog/p/13397570.html