Python 去掉文本内容中的\xa0字符

爬取网页时，不可避免会遇到\xa0字符串，就会发现，正则re.sub(r’\xa0’, ‘’)和字符串的replace都不管用。

通常地，我们所用的空格的ASCII码是 \x20 ，是在标准ASCII可见字符 0x20~0x7e 范围内的。而 \xa0 属于 latin1 （ISO/IEC_8859-1）中的扩展字符集字符，代表空白符nbsp(non-breaking space)。latin1 字符集可向下兼容 ASCII （ 0x20~0x7e ）。由于\xa0 实际上是 Latin1 (ISO 8859-1) 中的不间断空格，也是 chr(160)，所以应该将它替换为空格。

看了网上很多方法，比如有人用字符串的split()方法先进行分割，再用join()方法进行连接，是可以去掉\xa0字符，可是如果原本字符串里就有空格，想保留的空格也一并去掉了。所以这个方法不算严谨。

还有人建议用ord()+fromkeys()+translate()方法，功能是实现了，可看起来是不是太复杂了，这几个方法平时都太少用到了。

通过不断尝试，我发现一个简单的replace(u’\xa0’, u‘’)方法就可以实现了，比如：

import re

s='\xa0/\xa0The Shawshank Redemption'

s.replace(u'\xa0', u' ')

print(s)

输出：

/ The Shawshank Redemption

完美解决。不试过真是不知道会遇到什么问题。

注意：当.encode(‘utf-8’)时，它会将unicode编码为utf-8，这意味着每个unicode可以用1到4个字节表示。对于这种情况，\xa0 由 2 个字节 \xc2\xa0 表示。

Python 去掉文本内容中的\xa0字符的相关教程结束。

《Python 去掉文本内容中的\xa0字符.doc》

下载本文的Word格式文档，以方便收藏与打印。

Python 去掉文本内容中的\xa0字符

Python 去掉文本内容中的\xa0字符的相关教程结束。

相关推荐

Vue中使用富文本编辑器

去掉谷歌/新版Edge 浏览器的禁用扩展提示

OCR -- 文本检测 - 训练DB文字检测模型

华为 2015 机试输出：数字后面的连续出现的（2个或多个）相同字符（数字或者字符），删去一个，非数字后面的不要删除，例如，对应输出为：33aabb55pin。

Python分割多空格字符方法

2021-05-05：一个数组中只有两种字符‘G‘和‘B‘，可以让所有的G都放在左侧，所有的B都放在右侧。或者可以让所有的G都放在右侧，所有的B都放在左侧。但是只能在相邻字符之间进行交换操作。返回至少

R语言︱文本挖掘套餐包之——XML+SnowballC+tm包

Python 去掉文本内容中的\xa0字符

Python 去掉文本内容中的\xa0字符的相关教程结束。

相关推荐

Vue中使用富文本编辑器

去掉谷歌/新版Edge 浏览器的禁用扩展提示

OCR -- 文本检测 - 训练DB文字检测模型

华为 2015 机试 输出：数字后面的连续出现的（2个或多个）相同字符（数字或者字符），删去一个，非数字后面的不要删除，例如，对应输出为：33aabb55pin。

Python分割多空格字符方法

2021-05-05：一个数组中只有两种字符‘G‘和‘B‘，可以让所有的G都放在左侧，所有的B都放在右侧。或者可以让所有的G都放在右侧，所有的B都放在左侧。但是只能在相邻字符之间进行交换操作。返回至少

R语言︱文本挖掘套餐包之——XML+SnowballC+tm包

华为 2015 机试输出：数字后面的连续出现的（2个或多个）相同字符（数字或者字符），删去一个，非数字后面的不要删除，例如，对应输出为：33aabb55pin。