【问题标题】:How to get sub-content from wikipedia page using BeautifulSoup如何使用 BeautifulSoup 从维基百科页面获取子内容
【发布时间】:2019-10-04 08:14:00
【问题描述】:

我正在尝试使用python根据内部链接从维基百科页面中抓取子内容,问题是从页面中抓取所有内容,如何只抓取内部链接段落,提前谢谢

base_link='https://ar.wikipedia.org/wiki/%D8%A7%D9%84%D8%AA%D9%87%D8%A7%D8%A8_%D8%A7%D9%84%D9%82%D8%B5%D8%A8%D8%A7%D8%AA'
sub_link="#الأسباب"
total=base_link+sub_link
r=requests.get(total)
soup = bs(r.text, 'html.parser')          
results=soup.find('p')           
print(results)

【问题讨论】:

  • 能否请您检查一下使用base_link 两次的总变量。 sublink 也应该是 sub_link

标签: python beautifulsoup wikipedia


【解决方案1】:

这是因为它不是您要抓取的子链接。这是一个锚。

尝试请求整个页面,然后找到给定的 id。

类似这样的:

from bs4 import BeautifulSoup as soup
import requests

base_link='https://ar.wikipedia.org/wiki/%D8%A7%D9%84%D8%AA%D9%87%D8%A7%D8%A8_%D8%A7%D9%84%D9%82%D8%B5%D8%A8%D8%A7%D8%AA'
anchor_id="ﺍﻸﺴﺑﺎﺑ"
r=requests.get(base_link)
page = soup(r.text, 'html.parser')
span = page.find('span', {'id': anchor_id})
results = span.parent.find_next_siblings('p')
print(results[0].text)

【讨论】:

  • 非常感谢
猜你喜欢
  • 1970-01-01
  • 2015-02-08
  • 2018-01-05
  • 1970-01-01
  • 2015-05-08
  • 1970-01-01
  • 2015-01-03
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多