【发布时间】:2021-11-29 23:30:22
【问题描述】:
我需要刮掉这个网站上的所有文章、文章标题和段落:https://portaljuridic.gencat.cat/eli/es-ct/l/2014/12/29/19
问题是我尝试了一些 div、h3 或 p 没有任何反应 add image。
from bs4 import BeautifulSoup
import lxml
import pandas as pd
from tqdm import tqdm_notebook
def parse_url(url):
response = requests.get(url)
content = response.content
parsed_response = BeautifulSoup(content, "lxml")
return parsed_response
url = "https://portaljuridic.gencat.cat/eli/es-ct/l/2014/12/29/19"
soup = parse_url(url)
article = soup.find("div", {"class":"article-document"})
article
好像是一个带有javascript的网站,但我不知道如何获取它。
【问题讨论】:
标签: javascript python web-scraping