Python爬虫(九)_非结构化数据与结构化数据

爬虫的一个重要步骤就是页面解析与数据提取。更多内容请参考：Python学习指南

页面解析与数据提取

实际上爬虫一共就四个主要步骤：

以前学的就是如何从网站去爬数据，而爬下来的数据却没做分析，现在，就开始对数据做一些分析。

数据，可分为非结构化数据和结构化数据

非结构化数据：先有数据，再有结构
结构化数据：先有结构，再有数据
不同类型的数据，我们需要采用不同的方式来处理

非结构化的数据处理

文本、电话号码、邮箱地址

正则表达式Python正则表达式

HTML文件

正则表达式
XPath
CSS选择器

结构化的数据处理

JSON文件

JSON Path
转化为Python类型进行操作（json类）

XML文件

转化为Python类型（xmltodict）
XPath
CSS选择器
正则表达式

Python爬虫(九)_非结构化数据与结构化数据的相关教程结束。

《Python爬虫(九)_非结构化数据与结构化数据.doc》

下载本文的Word格式文档，以方便收藏与打印。

相关推荐

Python网络爬虫实战案例之：7000本电子书下载（2）

一、前言本文是《Python开发实战案例之网络爬虫》的第二部分：7000本电子书下载网络爬虫开发环境安装部署。配套视频课程详见51CTO学院。二、章节目录（1）Python开发环境依赖（2）Python依赖程序安装（3）Requ...
2024-03-14编程代码00,000,python,爬虫
python爬虫爬取笔趣网小说网站过程图解

首先：文章用到的解析库介绍 BeautifulSoup： Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不...
2023-10-28编程代码python,爬取,爬虫
scrapy爬虫如何爬取javascript内容

本篇文章给大家分享的是有关scrapy爬虫如何爬取javascript内容，小编觉得挺实用的，因此分享给大家学习，希望大家阅读完这篇文章后可以有所收获，话不多说，跟着小编一起来看看吧。很多网站都使用javascript......
2023-10-27编程代码javascript,scrapy,爬虫
python使用selenium实现爬虫知乎

本篇文章为大家展示了python使用selenium实现爬虫知乎，内容简明扼要并且容易理解，绝对能使你眼前一亮，通过这篇文章的详细介绍希望你能有所收获。说起爬虫一般想到的情况是，使用 python 中都通过 requests 库...
2023-10-27编程代码python,selenium,爬虫
爬虫之header

有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些Headers 的属性。首先，打开我们的浏览器，调试浏览器F12，我用的是Chr...
2023-10-27编程代码header,python,爬虫
【pandas小技巧】--数据转置

所谓数据转置，就是是将原始数据表格沿着对角线翻折，使原来的行变成新的列，原来的列变成新的行，从而更方便地进行数据分析和处理。 pandas中DataFrame的转置非常简单，每个DataFrame对象都有一个T属性，通过这...
2023-08-16编程代码Pandas,小技巧,数据
flink-cdc同步mysql数据到elasticsearch

1，什么是cdc CDC是（Change Data Capture 变更数据获取）的简称。核心思想是，监测并捕获数据库的变动（包括数据或数据表的插入INSERT、更新UPDATE、删除DELETE等），将这些变更按发生的顺序完整记录下来，写...
2023-08-11编程代码CDC,同步,数据
使用 Easysearch 还原 Elasticsearch 快照数据

本文主要验证 Elasticsearch 快照在 Easysearch 中进行数据恢复。准备测试数据索引别名模版生命周期策略创建快照 PUT /_snapshot/my_backup { "type": "fs", "settings": { "location": "/infi...
2023-08-01编程代码快照,数据,还原