【发布时间】:2019-07-16 17:04:18
【问题描述】:
我的 xml 文件是这样编码的:
<?xml version="1.0" encoding="utf-8"?>
我正在尝试使用漂亮的汤来解析这个文件。
from bs4 import BeautifulSoup
fd = open("xmlsample.xml")
soup = BeautifulSoup(fd,'lxml-xml',from_encoding='utf-8')
但这会导致
Traceback (most recent call last):
File "C:\Users\gregg_000\Desktop\Python
Experiments\NRE_XMLtoCSV\NRE_XMLtoCSV\bs1.py", line 4, in <module>
soup = BeautifulSoup(fd,'lxml-xml', from_encoding='utf-8')
File
"C:\Users\gregg_000\AppData\Local\Programs\Python\Python36\lib\site-
packages\bs4__init__.py",第 245 行,在 init 中 标记 = 标记.read() 文件
"C:\Users\gregg_000\AppData\Local\Programs\Python\Python36\lib\encodings\cp125 2.py",第 23 行,在解码中 返回 codecs.charmap_decode(input,self.errors,decoding_table)[0] UnicodeDecodeError:“charmap”编解码器无法解码位置的字节 0x9d 5343910:字符映射到未定义
我的感觉是 Python 想要使用默认的 cp1252 字符集。如何强制使用 utf-8 而不必求助于命令行? (我处于一个无法轻易强制对 python 设置进行全局更改的设置中)。
【问题讨论】:
-
您能否编辑问题以显示完整的错误消息?
标签: python xml beautifulsoup