【发布时间】:2016-10-13 09:15:53
【问题描述】:
我正在尝试使用 beautifulsoup 和 selenium 来抓取动态网站。我要过滤并放入 CSV 的属性包含在 <script> 标记中。我想提取包含在
脚本: 窗口.IS24 = 窗口.IS24 || {}; IS24.ssoAppName = "搜索"; IS24.applicationContext = "/Suche/error-reporter"; IS24.ab = {}; IS24.feature = {“SEARCH_BY_TELEKOM_SPEED_ENABLED”:真, IS24.resultList = { angularDebugInfoEnabled:假, navigationBarUrl: "/Suche/S-T/Haus-Kauf",
nextPage: "/Suche/S-T/P-2/Haus-Kauf?pagerReporting=true",
searchUrl: "/Haus-Kauf",
isMobile: false,
isTablet: false,
query:
{"realEstateType":"HOUSE_BUY","otpEnabled":true,"sortingCode":0,"location":
{"isGeoHierarchySearch":true,
Schulze","referrer":["RESULT_LIST_GROUPED"],"**attributes":[
{"title":"Kaufpreis","value":"249.012,75 €"},
{"title":"Wohnfläche","value":"129,87 m²"},{"title":"Zimmer","value":"4"},
{"title":"Grundstück","value":"400 m²"}],"checkedAttributes":["Gäste-**
我不确定如何将最后的属性提取到 CSV。你能帮我写代码吗?
【问题讨论】:
-
BS 使用 HTML,
<script>中的所有内容都不是 HTML 而是 JavaScript,所以对于 BS 来说它只是一个字符串。你必须使用标准的字符串方法或正则表达式来获取它(也许 JSON 来转换成 Python 字典)。 -
可能显示完整的
<script>。也许我们可以找到像data = json.loads(substring_from_script_tag)这样的方法 -
你好,我将如何使用正则表达式?谢谢
标签: jquery python selenium web-scraping beautifulsoup