【发布时间】:2014-02-13 14:51:09
【问题描述】:
我在 Python 中遇到了 BeautifulSoup 的问题。我需要提取页面上以“.php”结尾的所有文件,但它们也必须是本地文件。他们不能来自其他网站。这是我目前所拥有的:
from bs4 import BeautifulSoup
import mechanize
import sys
url = sys.argv[1]
br = mechanize.Browser()
code = br.open(url)
html = code.read()
soup = BeautifulSoup(html)
这就是我陷入困境的地方。我想使用 soup.findall 来获取所有的“a href”标签。
【问题讨论】:
-
这是一个好的开始...然后过滤
hrefs :)
标签: python python-2.7 beautifulsoup mechanize