python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制

CrawlSpider实现的全站数据的爬取

新建一个工程
cd 工程
创建爬虫文件：scrapy genspider -t crawl spiderName www.xxx.com
连接提取器LinkExtractor
可以根据指定的规则对指定的连接进行提取

提取的规则就是构造方法中的allow（‘正则表达式’）参数决定
规则解析器Rule
可以将将连接提取器提取到的连接进行请求发送，可以根据指定的规则（callback）对请求到的数据进行解析
follow=True:将连接提取器继续作用到连接提取器提取到的连接所对应的页面源码中

分布式

实现方式：scrapy+scrapy_redis组件实现的分布式。scrapy+redis

原生的scrapy是不可以实现分布式的！！！

什么是分布式

需要搭建一个由n台电脑组成的机群，然后在每一台电脑中执行同一组程序，让其对同一个网络资源
进行联合且分布的数据爬取。

为什么scrapy不可以实现分布式

调度器不可以被共享
管道不可以被共享

scrapy-reids组件的作用是什么

提供可以被共享的管道和调度器

分布式的实现流程

环境的安装：pip install scrapy-redis

创建工程

cd 工程

创建爬虫文件：

基于Spider
基于CrawlSpider

修改爬虫文件：

导报：
from scrapy_redis.spiders import RedisCrawlSpider#基于crawlSpider爬虫文件
from scrapy_redis.spiders import RedisSpider #基于Spider爬虫文件
将当前爬虫类的父类修改为RedisCrawlSpider
删除allowed_domains和start_urls
添加一个redis_key = ‘xxx’属性，表示的是调度器队列的名称、
根据常规形式编写爬虫文件后续的代码

修改settings配置文件

指定管道
ITEM_PIPELINES = {
'scrapy_redis.pipelines.RedisPipeline': 400
}

指定调度器

增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

使用scrapy-redis组件自己的调度器

SCHEDULER = "scrapy_redis.scheduler.Scheduler"

配置调度器是否要持久化, 也就是当爬虫结束了, 要不要清空Redis中请求队列和去重指纹的set。如果是True, 就表示要持久化存储, 就不清空数据, 否则清空数据

SCHEDULER_PERSIST = True

指定redis数据库
REDIS_HOST = '192.168.13.254'
REDIS_PORT = 6379

修改redis的配置文件redis.windows.conf

关闭默认绑定

56行：#bind 127.0.0.1
关闭保护模式
75行：protected-mode no

启动redis的服务端（携带配置文件）和客户端

启动分布式的程序：

scrapy runspider xxx.py

向调度器的队列中扔入一个起始的url

队列是存在于redis中
redis的客户端中：lpush sun www.xxx.com

在redis中就可以查看爬取到的数据

增量式

概念：监测
核心技术：去重
适合使用增量式的网站：
基于深度爬取

对爬取过的页面的url进行一个记录（记录表）
基于非深度爬取
记录表：爬取过的数据对应的数据指纹

数据指纹：就是原始数据的一组唯一标识
所谓的记录表是以怎样的形式存在于哪？
redis的set充当记录表

反爬机制

robots
UA伪装
图片懒加载
验证码
cookie
动态加载的数据
动态变化的请求参数
js加密
js混淆
代理

python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制的相关教程结束。

《python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制.doc》

下载本文的Word格式文档，以方便收藏与打印。

相关推荐

Python网络爬虫实战案例之：7000本电子书下载（2）

一、前言本文是《Python开发实战案例之网络爬虫》的第二部分：7000本电子书下载网络爬虫开发环境安装部署。配套视频课程详见51CTO学院。二、章节目录（1）Python开发环境依赖（2）Python依赖程序安装（3）Requ...
2024-03-14编程代码00,000,python,爬虫
python爬虫爬取笔趣网小说网站过程图解

首先：文章用到的解析库介绍 BeautifulSoup： Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不...
2023-10-28编程代码python,爬取,爬虫
scrapy爬虫如何爬取javascript内容

本篇文章给大家分享的是有关scrapy爬虫如何爬取javascript内容，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。很多网站都使用javascript......
2023-10-27编程代码javascript,scrapy,爬虫
python使用selenium实现爬虫知乎

本篇文章为大家展示了python使用selenium实现爬虫知乎，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。说起爬虫一般想到的情况是，使用 python 中都通过 requests 库...
2023-10-27编程代码python,selenium,爬虫
爬虫之header

有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些Headers 的属性。首先，打开我们的浏览器，调试浏览器F12，我用的是Chr...
2023-10-27编程代码header,python,爬虫
Kurator，你的分布式云原生解决方案

本文分享自华为云社区《DTSE Tech Talk | 第40期：Kurator，你的分布式云原生解决方案》，作者：华为云社区精选。什么是分布式云原生？中国信通院给出的定义：分布式云原生是指通过云原生技术统一多云技术栈，...
2023-08-24编程代码Kurator,分布式,解决方案
分布式搜索引擎Elasticsearch基础入门学习

一、Elasticsearch介绍 Elasticsearch介绍 Elasticsearh 是 elastic.co 公司开发的分布式搜索引擎。 Elasticsearch（简称ES）是一个开源的分布式、高度可扩展的全文搜索和分析引擎。它能够快速、近乎实时的存储...
2023-07-30编程代码入门,分布式,搜索引擎
【爬虫+数据清洗+可视化】用Python分析“淄博烧烤“的评论数据

目录一、背景介绍二、爬虫代码 2.1 展示爬取结果 2.2 爬虫代码讲解三、可视化代码 3.1 读取数据 3.2 数据清洗 3.3 可视化 3.3.1 IP属地分析-柱形图 3.3.2 评论时间分析-折线图 3.3.3 点赞数分布-箱线图 3.3.4 ...
2023-07-29编程代码数据,淄博,爬虫