python从零开始到scrapy框架应用(youtube示例)

python是目前开发爬虫最好的语言，本次爬取youtube视频所需用到：

python环境，scrapy框架，pycharm编译器，mongo数据库

步骤：

1.windows python环境搭建和安装：
进入python官网https://www.python.org/进行下载python3.7，进行安装并配置环境变量

2.安装python编译器pycharm
进入pycharm官网https://www.jetbrains.com 下载pycharm社区版本并安装

3.安装mongodb数据库

进入mongodb官网进行下载https://www.mongodb.com/download-center/community

4.启动cmd通过以下命令安装scrapy框架
pip install scrapy

5..搭建scrapy爬虫框架并使用pycharm打开
通过命令 scrapy startproject youtube 创建爬虫项目，然后切换到youtube目录下创建爬虫文件：scrapy genspider youtubeInfo *使用pycharm打开，项目目录结构如图

6.scrapy各模块介绍:

item.py：用于设置爬虫想要爬取的字段

middlewares.py：中间件文件，用于处理反爬虫的文件，设置代理，异常处理等方式会写在这里面

pipelines.py：管道文件，主要用于数据保存

settings.py：通用配置文件，数据库设置，爬虫协议通常在这里面设置

spiders下的youtubeInfo.py文件：这是编写爬虫的文件，爬虫的爬取规则逻辑都在这里实现

爬虫文件编写完成后，在settings.py中将管道设置打开，通过scrapy crawl youtubeInfo 命令启动爬虫，爬虫数据被保存到mongodb数据库中

6.从mongodb数据库导出csv文件

本文地址：https://blog.csdn.net/he_ranly/article/details/108253759

《python从零开始到scrapy框架应用(youtube示例).doc》

下载本文的Word格式文档，以方便收藏与打印。

相关推荐

python中bool的应用场景有哪些

条件判断：在条件语句中使用bool类型来判断条件是否成立，例如if语句、while循环等。函数返回值：函数可以返回bool类型的值，表示函数执行的结果是真或假。列表操作：bool类型可以用来判断列表中元素是否...
2024-05-18编程代码python
怎么使用python编写简单鸡兔同笼程序

以下是一个简单的用Python编写的鸡兔同笼程序示例： def calculate_animals(heads, legs): for num_chickens in range(heads+1): num_rabbits = heads - num_chickens if 2*num_chickens + 4...
2024-05-18编程代码python
python任意进制转换的方法是什么

Python中可以使用内置函数bin(), oct(), hex()来进行任意进制之间的转换。具体方法如下：十进制转二进制：bin(number)，将十进制数转换为二进制数。 decimal_num = 10 binary_num = bin(decimal_num) print(bi...
2024-05-18编程代码python
python怎么去掉重复数据

可以通过使用set()来去掉重复数据。以下是一个示例代码： data = [1, 2, 3, 4, 4, 5, 6, 6, 7] unique_data = list(set(data)) print(unique_data) 在这个示例中，将列表data转换为集合set，然后再转换为列表...
2024-05-18编程代码python
python列表重复元素怎么删除

有多种方法可以删除Python列表中的重复元素，以下是其中一种方法： # 创建一个包含重复元素的列表 lst = [1, 2, 3, 1, 2, 3, 4, 5] # 使用set()函数将列表转换为集合，集合不允许有重复元素 unique_lst = list(s...
2024-05-18编程代码python
python中怎么去掉重复项

在Python中，可以使用set()函数来去掉列表中的重复项。例如，假设有一个包含重复元素的列表： my_list = [1, 2, 3, 1, 2, 3, 4, 5] 可以使用set()函数将该列表转换为一个集合，然后再将集合转换回列表： new_li...
2024-05-18编程代码python
python中len函数的使用方法是什么

在Python中，len()函数用于返回指定对象的长度或者元素个数。它可以接受字符串、列表、元组、集合、字典等对象作为参数，并返回它们的长度。例如： # 字符串长度 s = "hello" print(len(s)) # 输出 5 ...
2024-05-15编程代码python
python如何把字符串拆开

Python可以使用split()方法将字符串拆分为多个子字符串。split()方法接受一个分隔符作为参数，并返回一个包含拆分后的子字符串的列表。例如，以下代码展示了如何将一个字符串按照空格进行拆分： s = "Hello...
2024-05-15编程代码python