【发布时间】:2014-11-30 17:52:30
【问题描述】:
目前我有以下代码:
# Import der Pythonmodule
import urllib
import lxml
import mechanize
import sys
# Verbindung zum URL aufbauen
try:
URL = urllib.urlopen("http://...")
except:
print "Verbindung zum URL fehlgeschlagen"
sys.exit(0)
# Quellcode des URL lesen
URL_quellcode = URL.readlines()
# Verbindung zum URL beenden
URL.close()
到目前为止一切顺利,我可以打开并阅读 URL 的来源。现在我想看看各种可能性来提取一些东西。
可能性 1:
可能性2: rel="author">某个名字
我想提取作者姓名。我的逻辑如下:
检查“作者姓名”的所有类 - 如果找到,请给我标签内的文本。如果找不到,请检查“rel="author" - 如果找到,请给我标签内的文字。如果没有,请打印“未找到作者”
我该怎么做?我可以使用正则表达式、lxml 或其他任何东西。什么是最优雅的方式?
【问题讨论】:
标签: python regex web-scraping lxml urllib