【问题标题】:Python BeautifulSoup Extracting PHP LinksPython BeautifulSoup 提取 PHP 链接
【发布时间】:2014-02-13 14:51:09
【问题描述】:

我在 Python 中遇到了 BeautifulSoup 的问题。我需要提取页面上以“.php”结尾的所有文件,但它们也必须是本地文件。他们不能来自其他网站。这是我目前所拥有的:

    from bs4 import BeautifulSoup
    import mechanize
    import sys

    url = sys.argv[1]

    br = mechanize.Browser()
    code = br.open(url)
    html = code.read()
    soup = BeautifulSoup(html)

这就是我陷入困境的地方。我想使用 soup.findall 来获取所有的“a href”标签。

【问题讨论】:

  • 这是一个好的开始...然后过滤hrefs :)

标签: python python-2.7 beautifulsoup mechanize


【解决方案1】:

这样试试,

page=urllib2.urlopen(url)
soup=BeautifulSoup(page.read())

for a in soup.findAll('a'):
  if a['href'].endswith('.php'):
     print a['href']

【讨论】:

    【解决方案2】:
    import glob,os
    path=input("Enter Your Path in "" =")+"//"
    print path
    for i in glob.glob(os.path.join(str(path),"*.php")):
                       print i
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2013-07-19
      • 2017-11-10
      • 2021-11-20
      • 2019-12-30
      • 1970-01-01
      • 1970-01-01
      • 2018-07-29
      • 2015-12-09
      相关资源
      最近更新 更多