【发布时间】:2021-10-29 08:38:41
【问题描述】:
Python 脚本
import requests
import json
from bs4 import BeautifulSoup
import re
from requests_html import HTMLSession
url = 'https://www.dunelm.com/product/caldonia-check-natural-eyelet-curtains-1000187301?defaultSkuId=30729125'
r = requests.get(url)
source_text = r.text
# Regex for extract info
product_list = re.findall('{\"delivery\"*.*false*}}}', source_text)
print(product_list, type((product_list)))
with open("json-pattern.json", "w", encoding='utf-8') as file:
file.write(str(product_list))
上述脚本从网站源代码中提取 JSON 数据,并将其作为 LIST 类型填充到 variable product_list 中。
问题
列表类型 (product_list) 包含一些流氓字符和单词,它们需要删除或替换才能正确构建 Python 字典,如下所示:
删除或替换
- [' = 完全删除
- '] = 完全删除
- \ \"(反斜杠引号)= 完全删除
- \'(反斜杠单引号)= 完全删除
- 未定义 = 替换为“未定义”
第 3 行和第 4 行字符之间不应有任何空格
通过删除不需要的字符,我可以使用 codebeautify.org 检查 JSON 数据的完整性
【问题讨论】:
-
尝试替换解析后的json字符串的方法
-
您能否提供一个示例,因为我对上述技术一无所知。
-
它是一个字符串方法
'your-string-goes-here'.replace('[', ''),你能发布你得到的结果吗?会有帮助的