Python之小测试:用正则表达式写一个小爬虫用于保存贴吧里的所有图片

2022-12-07,,,,

很简单的两步:

  1、获取网页源代码

  2、利用正则表达式提取出图片地址

  3、下载

 #!/usr/bin/python
#coding=utf8
import re # 正则表达式
import urllib # 获取网页源代码 # 用正则表达式写一个小爬虫用于保存贴吧里的所有图片 # 获取网页源代码
def getHtml(url):
page = urllib.urlopen(url) # 打开url,返回页面对象
html = page.read() # 读取页面源代码
return html # 获得图片地址
def getImg(html):
reg = r'src="(.*?\.jpg)" size="' # 定义一个正则来匹配页面当中的图片
imgre = re.compile(reg) # 为了让正则更快,给它来个编译
#这个时候做个测试,把匹配的数据都给打印出来
imglist = re.findall(imgre, html) # 通过正则返回所有数据列表
# 把这个地址一个一个的拿下来进行下载
x = 0
for imgurl in imglist:
urllib.urlretrieve(imgurl,'%s.jpg' % x)
x+=1 html = getHtml("https://tieba.baidu.com/p/5154221980")
getImg(html)

Python之小测试:用正则表达式写一个小爬虫用于保存贴吧里的所有图片的相关教程结束。

《Python之小测试:用正则表达式写一个小爬虫用于保存贴吧里的所有图片.doc》

下载本文的Word格式文档,以方便收藏与打印。