scrapy框架简介

一.安装scrapy环境
　　-mac或linux：pip install scrapy
　　-windows：
　　　　1.pip install wheel
　　　　2.pip install twinsted
　　　　3.pip install pywin32
　　　　4.pip install scrapy

二.创建工程
1.进入终端
2.cd进入想要创建工程文件的路径
3.scrapy startproject 项目名
4.cd进入spider 文件夹
5.scrapy genspider 爬虫名称(可修改) 目标网址

三.执行工程
scrapy crawl 爬虫名称

四.爬虫名.py代码讲解
name=""　　 #爬虫名称
allowed_domains=""　　 #允许爬取的网址
start_urls=[] 　　 #存放待爬url地址
def parse(self,response) 　　 #解析爬取来的response数据,自定义该函数解析方式
response参数可直接后.xpath(' ')　　#解析出来的数据用.extract_first()，提取列表第一个元素,若要提取所有则.extract()
from Project_Name.items import Projet_Name_Item 　　
item['name'] = name　　#对需要传递给管道的参数用item进行封装

五.setting.py文件讲解
ROBOTSTXT_OBEY=False 　　 #机器人协议(一般不遵从)
LOG_LEVEL='ERROR'　　 #只打印报错数据
USR_AGENT='' 　　 #浏览器代理
ITEM_PIPELINES={}　　 #打开管道存储功能

六.items.py讲解
class LandscapeItem(scrapy.Item):
name= scrapy.Field()　　 #定义需要传递给管道的item数据名称,一般传递需要保存的文件名和需要保存的数据(文本或者字节流)

七.pipelines.py讲解
class LandscapePipeline:
def process_item(self, item, spider):
name=item['name'] 　　 #将items封装的item进行解封装,将解封装的数据进行存储(本地或者数据库),至于存储方式需要自定义函数实现

scrapy框架 简介的相关教程结束。

《scrapy框架简介.doc》

下载本文的Word格式文档，以方便收藏与打印。

scrapy框架简介

scrapy框架 简介的相关教程结束。

相关推荐

Python Scrapy爬虫框架使用的方法

scrapy爬虫如何爬取javascript内容

在scrapy中使用selenium实现一个爬取网页的功能

Blazor前后端框架Known-V1.2.11

C#/.NET/.NET Core优秀项目和框架每周精选（坑已挖，欢迎大家踊跃提交PR或者Issues中留言）

Spring核心框架 - AOP的原理及源码解析

Python运维开发之路《WEB框架：Django》

GPUImage框架使用