Python之小测试：用正则表达式写一个小爬虫用于保存贴吧里的所有图片

很简单的两步：

　　1、获取网页源代码

　　2、利用正则表达式提取出图片地址

　　3、下载

 #!/usr/bin/python

 #coding=utf8

 import re       # 正则表达式

 import urllib   # 获取网页源代码

 # 用正则表达式写一个小爬虫用于保存贴吧里的所有图片

 # 获取网页源代码

 def getHtml(url):

         page = urllib.urlopen(url)      # 打开url，返回页面对象

         html = page.read()              # 读取页面源代码

         return html

 # 获得图片地址

 def getImg(html):

         reg = r'src="(.*?\.jpg)" size="'        # 定义一个正则来匹配页面当中的图片

         imgre = re.compile(reg)         # 为了让正则更快，给它来个编译

         #这个时候做个测试，把匹配的数据都给打印出来

         imglist = re.findall(imgre, html)                       # 通过正则返回所有数据列表

         # 把这个地址一个一个的拿下来进行下载

         x = 0

         for imgurl in imglist:

                 urllib.urlretrieve(imgurl,'%s.jpg' % x)

                 x+=1

 html = getHtml("https://tieba.baidu.com/p/5154221980")

 getImg(html)

Python之小测试：用正则表达式写一个小爬虫用于保存贴吧里的所有图片的相关教程结束。

《Python之小测试：用正则表达式写一个小爬虫用于保存贴吧里的所有图片.doc》

下载本文的Word格式文档，以方便收藏与打印。

相关推荐

Python网络爬虫实战案例之：7000本电子书下载（2）

一、前言本文是《Python开发实战案例之网络爬虫》的第二部分：7000本电子书下载网络爬虫开发环境安装部署。配套视频课程详见51CTO学院。二、章节目录（1）Python开发环境依赖（2）Python依赖程序安装（3）Requ...
2024-03-14编程代码00,000,python,爬虫
mysql数据库保存路径如何查找

今天小编给大家分享的是mysql数据库保存路径如何查找，相信很多人都不太了解，为了让大家更加了解，所以给大家总结了以下内容，一起往下看吧。一定会有所收获的哦。 mysql数据库保存路径查找 sqlyon-创建的表 ...
2024-03-14编程代码mysql,保存,路径
python爬虫爬取笔趣网小说网站过程图解

首先：文章用到的解析库介绍 BeautifulSoup： Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不...
2023-10-28编程代码python,爬取,爬虫
scrapy爬虫如何爬取javascript内容

本篇文章给大家分享的是有关scrapy爬虫如何爬取javascript内容，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。很多网站都使用javascript......
2023-10-27编程代码javascript,scrapy,爬虫
python使用selenium实现爬虫知乎

本篇文章为大家展示了python使用selenium实现爬虫知乎，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。说起爬虫一般想到的情况是，使用 python 中都通过 requests 库...
2023-10-27编程代码python,selenium,爬虫
爬虫之header

有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些Headers 的属性。首先，打开我们的浏览器，调试浏览器F12，我用的是Chr...
2023-10-27编程代码header,python,爬虫
信1705-2 软工作业最大重复词查询思路：（1）将文章（一个字符串存储）按空格进行拆分（split）后，存储到一个字符串（单词）数组中。（2）定义一个Map，key是字符串类型，保存单词；value是数字类型，保存该单词出现的次数。（3）遍历（1）中得到的字符串数组，对于每一个单词，考察Map的key中是否出现过该单词，如果没出现过，map中增加一个元素，key为该单词，value为1（

通过学习学会了文本的访问，了解一点哈希表用途。经过网上查找做成了下面查询文章重复词的JAVA程序。 1 思思路：（1）将文章（一个字符串存储）按空格进行拆分（split）后，存储到一个字符串（单词）数组中。 ...
2023-07-30编程代码保存,单词,字符串
【爬虫+数据清洗+可视化】用Python分析“淄博烧烤“的评论数据

目录一、背景介绍二、爬虫代码 2.1 展示爬取结果 2.2 爬虫代码讲解三、可视化代码 3.1 读取数据 3.2 数据清洗 3.3 可视化 3.3.1 IP属地分析-柱形图 3.3.2 评论时间分析-折线图 3.3.3 点赞数分布-箱线图 3.3.4 ...
2023-07-29编程代码数据,淄博,爬虫