【发布时间】:2025-11-26 10:55:02
【问题描述】:
我正在尝试从website 的下拉列表中抓取 pdf 链接。我只想抓取指导值 (CVC) 下拉菜单。以下是我使用但没有成功的代码
import requests
from bs4 import BeautifulSoup
req_ses = requests.Session()
igr_get_base_response = req_ses.get("https://igr.karnataka.gov.in/english#")
soup = BeautifulSoup(igr_get_base_response.text)
def matches_block(tag):
return matches_dropdown(tag) and tag.find(matches_text) != None
def matches_dropdown(tag):
return tag.name == 'li' and tag.has_attr('class') and 'dropdown-toggle' in tag['class']
def matches_text(tag):
return tag.name == 'a' and tag.get_text()
for li in soup.find_all(matches_block):
for ul in li.find_all('ul', class_='dropdown-toggle'):
for a in ul.find_all('a'):
if a.has_attr('href'):
print (a['href'])
任何建议都会有很大帮助!
编辑:在下面添加部分 HTML:
<div class="collapse navbar-collapse">
<ul class="nav navbar-nav">
<li class="">
<a href="https://igr.karnataka.gov.in/english" title="Home" class="shome"><i class="fa fa-home"> </i></a>
</li>
<li>
<a class="dropdown-toggle" data-toggle="dropdown" title="RTI Act">RTI Act <b class="caret"></b></a>
<ul class="dropdown-menu multi-level">
<!-- <li> -->
<li class="">
<a href=" https://igr.karnataka.gov.in/page/RTI+Act/Yadagiri+./en " title="Yadagiri .">Yadagiri .
</a>
</li>
<!-- </li> -->
<!-- <li>
【问题讨论】:
-
由于地理位置的原因,我无法访问该站点。
-
@αԋɱҽԃαмєяιcαη 我已经尝试添加源代码,看看是否有帮助
标签: python python-3.x web-scraping beautifulsoup pdf-scraping