【发布时间】:2022-01-22 00:37:14
【问题描述】:
我正在尝试从页面上的源代码中提取文本。 在标签中,我想提取这个:
<script src="/_next/static/d5fgdrSQl/_buildM.js" defer=""></script>
d5fgdrSQl 是一个动态数据,我每天都需要精确地报废这个密钥。
我的脚本是这样开始的,但我不知道该怎么做。
from bs4 import BeautifulSoup
import re
import requests
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.90 Safari/537.36'}
urlweb = 'https://www.thenameofthewebiste.com'
r1 = requests.get(urlweb,headers=headers)
s1 = BeautifulSoup(r1.text, 'html.parser')
TAG = s1.find_all('_buildM')
print(TAG)
【问题讨论】:
-
TAG = s1.find_all('_builddata')是/不会按照您的想法行事。标签是script。我建议看一下文档或教程。 -
网站是什么?
标签: python web-scraping beautifulsoup