【发布时间】:2020-09-24 12:24:00
【问题描述】:
我查看了其他各种问题,但似乎没有一个符合要求。就这样吧
我有一个单词列表
l = ['red','green','yellow','blue','orange']
我还有另一个变量中的网页源代码。我正在使用请求库
import requests
url = 'https://google.com'
response = requests.get(url)
source = response.content
然后我像这样创建了一个子字符串查找函数
def find_all_substrings(string, sub):
import re
starts = [match.start() for match in re.finditer(re.escape(sub), string)]
return starts
我现在使用以下代码查找我遇到的单词
for word in l:
substrings = find_all_substrings(source, word)
new = []
for pos in substrings:
ok = False
if not ok:
print(word + ";")
if word not in new:
new.append(word)
print(new)
page['words'] = new
我的理想输出如下所示
找到的词 - ['red', 'green']
【问题讨论】:
-
你试过 BeautifulSoup 解析器吗?
-
嘿@woblob,与其说是解析器,不如说是逻辑。该函数确实找到了这个词。它的列表输出有时会翻倍,有时会出现 10 次。
-
你不要改变“ok”变量
-
“我被卡住了”没有帮助。执行代码时遇到什么错误。哪一行导致错误?
标签: python python-3.x list python-requests python-re