荐 听说你想爬点壁(mei)纸图

2022-08-07,

面向小白的基础教程,无法再基础了,里面的原理一些名词,原理写的也比较详细,虽然可能看了还不太懂,但肯定能让你实战应用。

首先导入我们需要的模块

import requests # requests是python实现的最简单易用的HTTP库
import re  #regular expression,正则表达式,是用来简洁表达一组字符串特征的表达式。最主要应用在字符串匹配中。
import os  #os库提供通用的,基本的操作系统交互功能(windows,mac os,linux)

找网站的网址和User-Agent

为什么要使用User Agent?

因为一些网站不喜欢外界的爬虫消耗自己的服务器的大量资源,因此他自身就写了一个反爬虫程序,不使用代理的话,他们就能识别出你是爬虫,从而给你进行重定向无数次,导致你的爬虫报错.
User-Agent其实就是你的浏览器信息。是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个标 识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者进行信息统计;

  • 一般网站都有反爬虫机制,所以我们要对我们的爬虫进行伪装,应该先去该网址找到他的请求头,也就是他的User-Agent

  • 请求头:右键单击然后点检查,然后按步骤找请求头

headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.7 Safari/537.36'}
  • 设置我们需要爬取的网页url,也就是这个网址

url='https://image.baidu.com/search/index?isource=infinity&iname=baidu&tn=baiduimage&word=%E5%A3%81%E7%BA%B8'

获取单张图片的url,并保存图片

  • 首先找到单张图片的URL

    找张图片单击一下

    每往下滑动滑轮就Name那一栏就会出现新的内容,下面的数字是0—30的,也就是相当于每一页有三十张图片。

    可以看到多了很多,点开右面的每个图片的json信息,比如时间,内容,最关键的有这张图片的URL地址

    这个就是这张图片的网址,可以复制下打开看看。

    可以看到是个美女壁纸

《荐 听说你想爬点壁(mei)纸图.doc》

下载本文的Word格式文档,以方便收藏与打印。