【发布时间】:2012-02-24 12:41:25
【问题描述】:
我得到了一个 url,我想从 url 中提取 <BODY> 标记的内容。
我正在使用 Python3。我遇到了sgmllib,但它不适用于 Python3。
有人可以指导我吗?我可以为此使用HTMLParser 吗?
这是我尝试过的:
import urllib.request
f=urllib.request.urlopen("URL")
s=f.read()
from html.parser import HTMLParser
class MyHTMLParser(HTMLParser):
def handle_data(self, data):
print("Encountered some data:", data)
parser = MyHTMLParser()
parser.feed(s)
这给了我错误:TypeError: Can't convert 'bytes' object to str implicitly
【问题讨论】:
-
“请指导我”:会的。搜索。被问过了。很多很多次。完成搜索后(在右上角),请根据已经给出的答案随意提出具体问题。
-
具体可以在parser.feed()方法中解析url吗?
-
@ghbhatt:向我们展示您需要的示例。否则,请参阅我的答案就是您要问的。
-
@RanRag:我确实编辑了我的问题。请看一下。
标签: python-3.x