Python

[Python3网络爬虫开发实战] 14.1–分布式爬虫原理 24小时内最新

[Python3网络爬虫开发实战] 14.1–分布式爬虫原理
14.1 分布式爬虫原理 我们在前面已经实现了 Scrapy 微博爬虫,虽然爬虫是异步加多线程的,但是我们只能在一台主机上运行,所以爬取效率还是有限的,分布式爬虫则是将多台主机组合起来,共同完成一个爬取任务,这将大大提高爬取的效率。 1. 分布式爬虫架构 在了解分布式爬虫架构之前...

崔庆才 2019-12-08 9:52 111浏览 0评论 1喜欢

Python

[Python3网络爬虫开发实战] 13.13–Scrapy 爬取新浪微博 24小时内最新

[Python3网络爬虫开发实战] 13.13–Scrapy 爬取新浪微博
13.13 Scrapy 爬取新浪微博 前面讲解了 Scrapy 中各个模块基本使用方法以及代理池、Cookies 池。接下来我们以一个反爬比较强的网站新浪微博为例,来实现一下 Scrapy 的大规模爬取。 1. 本节目标 本次爬取的目标是新浪微博用户的公开基本信息,如用户昵称、...

崔庆才 2019-12-08 9:50 76浏览 0评论 0喜欢

Python

[Python3网络爬虫开发实战] 13.12–Scrapy 对接 Docker

[Python3网络爬虫开发实战] 13.12–Scrapy 对接 Docker
13.12 Scrapy 对接 Docker 环境配置问题可能一直是我们头疼的,我们可能遇到过如下的情况: 我们在本地写好了一个 Scrapy 爬虫项目,想要把它放到服务器上运行,但是服务器上没有安装 Python 环境。 别人给了我们一个 Scrapy 爬虫项目,项目中使用包...

崔庆才 2019-12-07 10:23 213浏览 0评论 1喜欢

Python

[Python3网络爬虫开发实战] 13.11–Scrapyrt 的使用

[Python3网络爬虫开发实战] 13.11–Scrapyrt 的使用
13.11 Scrapyrt 的使用 Scrapyrt 为 Scrapy 提供了一个调度的 HTTP 接口。有了它我们不需要再执行 Scrapy 命令,而是通过请求一个 HTTP 接口即可调度 Scrapy 任务,我们就不需要借助于命令行来启动项目了。如果项目是在远程服务器运行,...

崔庆才 2019-12-07 10:20 111浏览 0评论 2喜欢

技术杂谈

Nginx 反向代理返回结果为空的问题

Nginx 反向代理返回结果为空的问题
最近在开发过程中遇到了这么一个问题: 现在有一个 Web 项目,前端是使用 Vue.js 开发的,整个前端需要部署到 K8S 上,后端和前端分开,同样也需要部署到 K8S 上,因此二者需要打包为 Docker 镜像。 对前端来说,打包 Docker 就遇到了一个问题:跨域访问问题...

崔庆才 2019-12-07 6:26 103浏览 0评论 0喜欢

技术杂谈

阿里云服务器活动!阿里云代金券 + 1 折优惠码

阿里云服务器活动!阿里云代金券 + 1 折优惠码
阿里云作为国内最大的云服务商家,个人与企业上云都纷纷首选阿里云。但是在价格方面比整个市场有些许昂贵,让不少用户却而止步。因此星速云小编呕心沥血整理阿里云最新优惠折扣【汇总篇】,让大家不用花时间到处寻找优惠信息,帮助站长、开发者和企业们上云购节省项目开支。 最全:阿里云最新优惠获...

崔庆才 2019-12-06 18:43 253浏览 0评论 0喜欢

Python

[Python3网络爬虫开发实战] 13.10–Scrapy 通用爬虫

[Python3网络爬虫开发实战] 13.10–Scrapy 通用爬虫
13.10 Scrapy 通用爬虫 通过 Scrapy,我们可以轻松地完成一个站点爬虫的编写。但如果抓取的站点量非常大,比如爬取各大媒体的新闻信息,多个 Spider 则可能包含很多重复代码。 如果我们将各个站点的 Spider 的公共部分保留下来,不同的部分提取出来作为单独的配...

崔庆才 2019-12-06 9:30 557浏览 2评论 0喜欢

Python

[Python3网络爬虫开发实战] 13.9–Scrapy 对接 Splash

[Python3网络爬虫开发实战] 13.9–Scrapy 对接 Splash
13.9 Scrapy 对接 Splash 在上一节我们实现了 Scrapy 对接 Selenium 抓取淘宝商品的过程,这是一种抓取 JavaScript 动态渲染页面的方式。除了 Selenium,Splash 也可以实现同样的功能。本节我们来了解 Scrapy 对接 Spl...

崔庆才 2019-12-06 9:27 198浏览 0评论 0喜欢

Python

[Python3网络爬虫开发实战] 13.8–Scrapy 对接 Selenium

[Python3网络爬虫开发实战] 13.8–Scrapy 对接 Selenium
13.8 Scrapy 对接 Selenium Scrapy 抓取页面的方式和 requests 库类似,都是直接模拟 HTTP 请求,而 Scrapy 也不能抓取 JavaScript 动态渲染的页面。在前文中抓取 JavaScript 渲染的页面有两种方式。一种是分析 Aja...

崔庆才 2019-12-05 9:30 512浏览 2评论 1喜欢

Python

[Python3网络爬虫开发实战] 13.7–Item Pipeline 的用法

[Python3网络爬虫开发实战] 13.7–Item Pipeline 的用法
13.7 Item Pipeline 的用法 Item Pipeline 是项目管道。在前面我们已经了解了 Item Pipeline 的基本用法,本节我们再作详细了解它的用法。 首先我们看看 Item Pipeline 在 Scrapy 中的架构,如图 13-1 所示。 图中的...

崔庆才 2019-12-05 9:26 282浏览 1评论 0喜欢