【发布时间】:2020-07-15 12:39:51
【问题描述】:
有没有办法只从 Python 中的不同域 url 中抓取文本数据?
例如,在this 网站中,文本位于与this 页面不同的块中。我想编写一个函数,允许我同时从这两个网站上抓取文本。这在 Python 中可行吗?
【问题讨论】:
-
更精确地确定您想要做什么。分别请求两个网站并连接结果文本是一种方法,但您必须知道要从这些页面中提取什么。
标签: python web-scraping
有没有办法只从 Python 中的不同域 url 中抓取文本数据?
例如,在this 网站中,文本位于与this 页面不同的块中。我想编写一个函数,允许我同时从这两个网站上抓取文本。这在 Python 中可行吗?
【问题讨论】:
标签: python web-scraping
python 中唯一可能的事情是抓取页面的整个文本。您可以使用该代码执行此操作。
import requests
from bs4 import BeautifulSoup
r = requests.get('https://www.businessinsider.in/tech/news/airbnb-is-getting-ripped-apart-for-asking-renters-to-donate-money-to-landlords/articleshow/76968577.cms')
soup = BeautifulSoup(r.text, 'html.parser')
texet = soup.find('html').text
print(texet)
【讨论】: