Python爬虫学习：三、爬虫的基本操作流程

本文是博主原创随笔，转载时请注明出处Maple2cat|Python爬虫学习：三、爬虫的基本操作与流程

一般我们使用Python爬虫都是希望实现一套完整的功能，如下：

1.爬虫目标数据、信息；

2.将数据或信息存入数据库中；

3.数据展示，即在Web端进行显示，并有自己的分析说明。

这次我先介绍第一个功能中所需要实现的基本操作：

爬虫的基本操作：

　　表示必须步骤表示可选步骤

导入爬虫所需要的库（如：urllib、urllib2、BeautifulSoup、Scrapy等）

定义目标链接：url="http://www.cnblogs.com/Maple2cat/"

添加data信息：data为字典类型，可以添加name，password等一些登录所需信息

定义headers：有些网站会识别链接是否由浏览器发出的请求，需要定义headers用伪装是浏览器所访问的

如果在第三步中添加了data信息，则需要对data进行转编码：urlencode(data)

请求链接：res=urllib2.Request(url,data,headers)

读取HTML源码：html=res.read()

解析html，一般常用的方法有两种：¹ 正则表达式（根据提取规则截取目标内容）；² BeautifulSoup（根据html标签进行提取，如：<a>……</a>）

存入本地或者数据库

Python正则表达式学习请看这边→|||Python正则表达式学习|||

下一篇将简单介绍如何查看网站登录的data信息以及headers，^_^~

Python爬虫学习：三、爬虫的基本操作流程的相关教程结束。

《Python爬虫学习：三、爬虫的基本操作流程.doc》

下载本文的Word格式文档，以方便收藏与打印。

相关推荐

php调用python脚本失败怎么解决

确保python脚本的可执行权限已经设置，可以使用chmod命令设置可执行权限，比如：chmod +x script.py 确保php脚本和python脚本的路径设置正确，可以使用绝对路径来调用python脚本，比如：/usr/bin/python /pat...
2024-04-18编程代码PHP,python
怎么将R语言与Python集成

将R语言与Python集成可以通过以下几种方法：使用reticulate包：reticulate是一个R包，可以帮助在R中调用Python代码和包。它提供了一些函数，如import()和py_run_string()，可以在R中运行Python代码，并且可以...
2024-04-13编程代码python,R语言
Ruby与Python相比有哪些优势

Ruby与Python都是流行的编程语言，各有其优势。以下是Ruby相对于Python的一些优势：优雅的语法：Ruby被设计为一种优雅、简洁的语言，其语法易于理解和学习，使得编写代码更加快速和高效。面向对象：Ruby是...
2024-04-13编程代码python,Ruby
Fortran如何与Python交互

在Fortran中与Python进行交互的方法有几种：使用f2py：f2py是一个工具，可以将Fortran代码编译成Python模块，从而可以直接在Python中调用Fortran函数和子程序。使用Cython：Cython是一个类似于Python的语言...
2024-04-13编程代码fortran,python
python读取数据怎么去掉逗号

要去掉数据中的逗号，可以使用字符串的replace()方法来替换逗号为空格或空字符串。以下是一个示例代码： # 读取数据 data = "1,2,3,4,5" # 去掉逗号 data_without_comma = data.replace(","...
2024-04-03编程代码python
python怎么读取列表数据

要读取列表数据，可以通过索引来访问列表中的特定元素。例如，假设有一个名为my_list的列表，可以通过my_list[index]来访问列表中位置为index的元素。索引从0开始，所以第一个元素的索引为0，第二个元素的索引为1...
2024-04-03编程代码python
python通配符查找方法怎么用

Python中通配符查找方法可以使用fnmatch模块的fnmatch函数。该函数用于测试文件名是否与指定的模式匹配，支持通配符*和?。示例代码如下： import fnmatch import os # 获取当前目录下所有文件 files = os.listd...
2024-04-02编程代码python
怎么用python通配符查找字符串

你可以使用Python中的re模块来进行通配符查找字符串。具体步骤如下：导入re模块：import re 使用re模块的search()函数来查找匹配的字符串。例如，查找所有以字母a开头的单词： import re text = "apple ...
2024-04-02编程代码python