一.安装scrapy环境
-mac或linux:pip install scrapy
-windows:
1.pip install wheel
2.pip install twinsted
3.pip install pywin32
4.pip install scrapy
二.创建工程
1.进入终端
2.cd进入想要创建工程文件的路径
3.scrapy startproject 项目名
4.cd进入spider 文件夹
5.scrapy genspider 爬虫名称(可修改) 目标网址
三.执行工程
scrapy crawl 爬虫名称
四.爬虫名.py代码讲解
name="" #爬虫名称
allowed_domains="" #允许爬取的网址
start_urls=[] #存放待爬url地址
def parse(self,response) #解析爬取来的response数据,自定义该函数解析方式
response参数可直接后.xpath(' ') #解析出来的数据用.extract_first(),提取列表第一个元素,若要提取所有则.extract()
from Project_Name.items import Projet_Name_Item
item['name'] = name #对需要传递给管道的参数用item进行封装
五.setting.py文件讲解
ROBOTSTXT_OBEY=False #机器人协议(一般不遵从)
LOG_LEVEL='ERROR' #只打印报错数据
USR_AGENT='' #浏览器代理
ITEM_PIPELINES={} #打开管道存储功能
六.items.py讲解
class LandscapeItem(scrapy.Item):
name= scrapy.Field() #定义需要传递给管道的item数据名称,一般传递需要保存的文件名和需要保存的数据(文本或者字节流)
七.pipelines.py讲解
class LandscapePipeline:
def process_item(self, item, spider):
name=item['name'] #将items封装的item进行解封装,将解封装的数据进行存储(本地或者数据库),至于存储方式需要自定义函数实现