【Web_接口爬虫_Python3_百度一下_request&json&etree】百度一下,检索“成都”,爬取标题、内容、链接地址,保存文本_20200301

2022-07-24,,,,

目录

Python爬虫

【导入第三方库】

【类的初始化】

【发起请求】

【解析响应】

【循环解析】

【格式化数据】

【记录信息】

【打印结果】

【----------实现效果------------】


 

Python爬虫

【导入第三方库】

import json
import requests
from lxml import etree

【类的初始化】

class Baidu_requests(object):
    def __init__(self):
        pass

【发起请求】

    def baidu_test(self, url='https://www.baidu.com/s?wd=成都&rsv_spt=1'):
        '''
        百度一下:取出标题、描述、url
        :param url: 成都
        :return: None
        '''
        headers = {"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36", "Content-Type": "text/html;charset=utf-8"}
        response = requests.get(url, headers=headers)
        res_text = response.text.encode('gbk', 'ignore').decode('gbk')

【解析响应】

        res_text = response.text.encode('gbk', 'ignore').decode('gbk')
        html = etree.HTML(res_text, etree.HTMLParser())
        html_h3 = html.xpath('//*[@id="content_left"]/div[@id]')

【循环解析】

# 遍历信息
        for i in range(len(html_h3)):
            try:
                str_xpath_1 = f'//*[@id="content_left"]/div[@id="{int(i) + 1}"]//h3'
                res_title_1 = html.xpath(str_xpath_1)[0].xpath('string(.)')
            except:
                res_title_1 = str_xpath_1
            try:
                str_xpath_2 = f'//*[@id="content_left"]/div[@id="{int(i) + 1}"]//div'
                res_comment_2 = html.xpath(str_xpath_2)[0].xpath('string(.)')
            except:
                res_comment_2 = str_xpath_2
            try:
                str_xpath_3 = f'//*[@id="content_left"]/div[@id="{int(i) + 1}"]//a/@href'
                res_url_3 = html.xpath(str_xpath_3)[0]
            except:
                res_url_3 = str_xpath_3

【格式化数据】

            # 格式化信息
            res_title_1 = str(i + 1) + "." + str(res_title_1.encode('gbk', 'ignore').decode('gbk')).strip()
            res_comment_2 = res_comment_2.encode('gbk', 'ignore').decode('gbk').replace(" ", '').replace("\n", '')
            res_url_3 = res_url_3.encode('gbk', 'ignore').decode('gbk').strip()

【记录信息】

            # 记录信息
            with open('response_2021.txt', 'a+', encoding='utf-8') as write:
                write.write(res_title_1 + '\n')
                write.write(res_comment_2 + '\n')
                write.write(json.dumps(res_url_3, ensure_ascii=False) + '\n')
                write.write('\n')

【打印结果】

            # 打印信息
            print("Total:", len(html_h3), "\nUrl  :", url, "\n")
            print(res_title_1, end='\n------------------------\n')
            print(res_comment_2, end='\n')
            print(res_url_3, end='\n\n')


if __name__ == "__main__":
    Baidu_requests().baidu_test()

【----------实现效果------------】
 

D:\TestFiles\Python3\python.exe D:/Mytest/Svnbucket/Python3/临时文件/Baidu_request.py
Total: 11 
Url  : https://www.baidu.com/s?wd=成都&rsv_spt=1 

1.成都(四川省省会、副省级市) - 百度百科
------------------------
重播进入百科成都,简称“蓉”,别称蓉城、锦城,是四川省省会、副省级市、特大城市、成渝地区双城经济圈核心城市,国务院批复确定的中国西部地区重要的中心城市,国家重要的高新技术产业基地、商贸物流中心和综合交通枢纽。截至2019年,全市下辖12个市辖区、3个县、代管5...历史沿革行政区划地理环境自然资源人口政治更多>baike.baidu.com/
http://www.baidu.com/link?url=-WgTsRnaxzWlsxP78BLSlzPzBaXFXLR42wPLkg7AJMVGbljm0YpuIQRipIs_hAPdo4CrUP77kzCvoJXRf2Bq4G6GI6_IA8zwG-e983ubEiO

2.中国成都
------------------------
中优:让老成都嗅到“蜀都味”让新蓉漂感受“国际范”四川省政府网专栏:全力以赴坚决打赢抗击新冠肺炎疫情人民战争新闻推荐范锐平主持召开市委全面深化....user-avatar{	display:flex;	flex-direction:row;	align-items:center;	justify-content:flex-start;}www.chengdu.gov.cn/.snapshoot,.snapshoot:visited{color:#9195A3!important;}.snapshoot:active,.snapshoot:hover{color:#626675!important;}百度快照
http://www.baidu.com/link?url=dQKUaBQDWX_lxVDl4SILItinMPJsB79lEF4PJ0_J91lylftfO-gbJbCViQxlMNjO

3.成都,吃喝玩乐背后的雄心_腾讯新闻
------------------------
3小时前如果人们要问,谁是“新一线城市”,那么,成都应该是最想摘掉“新”字的那个。在各种有关城市的指标上,比如中国第四城第五城、最宜居城市等,成都常年霸...
http://www.baidu.com/link?url=RAQOz3DNvH6pcFTacFMi3VU-pjgpA4Ov9E1X84Qkof0XdF7QWXTSvptMRjsaSpjvyIaNuckAkZTyaPDuFRP8ra

4.成都市人民政府
------------------------
认识成都成都市实施幸福美好生活十大工程动员大会召开范锐平讲话王凤朝主持新闻推荐范锐平主持召开市委常委会(扩大)会议成都市重大产业化项目投资基金高能级项....user-avatar{	display:flex;	flex-direction:row;	align-items:center;	justify-content:flex-start;}www.chengdu.gov.cn/chengdu/ind....snapshoot,.snapshoot:visited{color:#9195A3!important;}.snapshoot:active,.snapshoot:hover{color:#626675!important;}百度快照
http://www.baidu.com/link?url=uI_4ckJQgTGbxQXotb7l-f8Lvvm2PSapolQbyJfaU3BHS_cw8BhYfaqL1u0tFqfQVErxA3ZIDtlugZvpHf3Uw_

5.成都网站建设-定制做网站-成都网站制作公司-专业建站、创...
------------------------
成都创新互联科技有限公司是一家专注成都做网站,网站建设,网站设计,网络营销,服务器托管等互联网公司,专业为中小企业提供网站设计制作,网站后期维护,网站推广等一整套...
http://www.baidu.com/link?url=P-we37k8UfrvxIWs1VnLkxPDFz3758pmogHuPKSQRr6BYlg-ecATnxYYc1pWqR1M

6.//*[@id="content_left"]/div[@id="6"]//h3
------------------------
其他人还在搜成都必去的十大景点成都旅游攻略成都旅游团成都三日游最佳攻略歌曲《成都》成都旅游景点成都必去的地方排行为什么成都被称为性都成都旅游景点大全排名赵雷《成都》
/s?wd=%E6%88%90%E9%83%BD%E5%BF%85%E5%8E%BB%E7%9A%84%E5%8D%81%E5%A4%A7%E6%99%AF%E7%82%B9&usm=3&ie=utf-8&rsf=11630003&rsv_dl=0_prs_28608_1&rsv_pq=f0b6a72400020cd3&rsv_t=a31dNdBxSz0hyyM0VpXeLU%2BPdoEnhPsiIv4NpvGNu2K7IYOCAmg3JAe5U7E&oq=

7.成都的最新相关信息
------------------------
46分钟前重返500万!成都地铁单日客运量节后回温红星新闻随着春节假期结束,成都地铁线网客运量也迅速回温。今天(2月23日),红星新闻记者从成都地铁运营有限公司获悉,2月22日,成都地铁单日客流量达到523.22万,为今年首次重...3小时前成都普通女孩VS网红女孩网易35分钟前未来五年成都将建400所中小学幼儿园优质教育学...四川新闻网1小时前成都“顶级公务机被天降异物击穿”原因查明,修...澎湃新闻2小时前首部城市主题院线电影《成都漫步》开机腾讯新闻
http://www.baidu.com/link?url=-WgTsRnaxzWlsxP78BLSlrpdWiHwsLFgDrQa8eR880vyd1MUHbqmWzDomeC48nPxsHbJSBVK9vGKPxw8AtXpditR_ybT2QrVXLlhiBvP4kC2HoWRZWWRV9LZCmIPDjKh

8.成都 - 百度汉语
------------------------

http://www.baidu.com/link?url=lvT4jl9lP0uzOqAI1vksANLI7AOOrOx7Qc7A46ARSfWVF_o5yNO-3b3unFQpH50IEJqFfPJyfVHb-itC_EQ6Sf6yKJ80EfRhmi514IW0Izq8W0dunI3LM_nyRBmdTrxI4wggEmSQMtz7HKTRcdoZlq

9.成都在线试听_高音质歌曲_网易云音乐
------------------------
网易云音乐酷我音乐酷狗音乐千千音乐序号歌曲歌手播放歌词01成都	赵雷	02成都	文静	03成都	曲肖冰	04成都	彭子龙	05成都	刘安琪	查看更多成都		序号歌曲歌手播放歌词01成都	降央卓玛	02成都	冯提莫	03成都	李梦瑶	查看更多成都		序号歌曲歌手播放01成都	阿兰	02成都	徐薇	查看更多成都		序号歌曲歌手播放歌词下载01成都	杨峰	02成都	蓝天城少儿艺术团	查看更多成都		
http://www.baidu.com/link?url=rHqQQAjABl8e0WVtEqwsKXzbcIsraO5evjCLU3BPLVs96DjDidp_y2BcrR30mFk4izEc9kqOZqid8ifg62ZOz38eOWwGnb0VBHwyMKYhfs7

10.严格执法!成都曝光两起非道路移动机械违法行为
------------------------
1小时前近年来,成都市为打赢蓝天保卫战,深入推进“铁腕治霾”,减少移动源污染,改善空气质量,加大了对机动车和非道路移动机械的监管力度,严肃查处违法行为。2...
http://www.baidu.com/link?url=-i-lJNoAdS6Kudsx2F85j50UReOfwI2dRoJkVMBC7dnmJHUaiVNxJR-dRnXp1mo9VdWYn6N5q6xAMS5YDFdbx0zu4eE1ORlKxpBuiPVDyWi

11.2021成都旅游攻略,成都自由行攻略,马蜂窝成都出游攻略游记...
------------------------
喜欢热闹疯狂,请来重庆喜欢小资情调,就去成都成都更加人文,底蕴更深,来这里就是放松可以使自己更沉静;如果只是单纯的为了吃好玩好那我推荐去重庆!【先说一下重庆....user-avatar{	display:flex;	flex-direction:row;	align-items:center;	justify-content:flex-start;}马蜂窝.snapshoot,.snapshoot:visited{color:#9195A3!important;}.snapshoot:active,.snapshoot:hover{color:#626675!important;}百度快照
http://www.baidu.com/link?url=4VqILO61Uhc8hkLPjCQQEul6lOkNLAB3YNam12ANs0V6d1dfzzRvGnpDn_StpMbhZ3jePHAjDT3Ltqwv2CkUhH7h5kvMliCg1Gkqi0gUHZe


进程已结束,退出代码0

 

本文地址:https://blog.csdn.net/denzeleo/article/details/114001567

《【Web_接口爬虫_Python3_百度一下_request&json&etree】百度一下,检索“成都”,爬取标题、内容、链接地址,保存文本_20200301.doc》

下载本文的Word格式文档,以方便收藏与打印。