【发布时间】:2010-11-15 14:04:39
【问题描述】:
我正在尝试从NYTimes.com 解码 HTML 条目,但我无法弄清楚我做错了什么。
举个例子:
"U.S. Adviser’s Blunt Memo on Iraq: Time ‘to Go Home’"
我尝试过 BeautifulSoup、decode('iso-8859-1') 和 django.utils.encoding 的 smart_str 都没有成功。
【问题讨论】:
-
这个问题似乎出现了很多没有好的解决方案。让我想写一些我自己的东西......
-
哈,我认为这是迄今为止我找到的最佳解决方案。我实际上可能会自己尝试这样做。如果我这样做,我会发布我的解决方案。
-
@Triptych:有
unescape()。
标签: python unicode character-encoding content-type beautifulsoup