【发布时间】:2020-06-29 19:19:56
【问题描述】:
我在一个 csv 文件中有 450 个关键字。我想计算这些关键字在单独文件夹中的多个 txt 文件中出现的频率。
csv 文件示例:
- 关键字1
- 关键字2
预期输出:
公司名称、关键字1、关键字2
XYZ 公司, 4, 5
我目前正在通过为每个关键字编写代码来计算每个关键字的频率。我正在寻找一种解决方案来读取关键字的 csv 文件并计算这些关键字在多个文本文件中出现的频率。
我的代码:
path = ['foldername1', 'foldername2']
for i in tqdm(path):
for filename in os.listdir(i):
with open(os.path.join(i, filename), encoding='ISO-8859-1') as filedata:
text=filedata.read()
keyword1=sum(1 for match in re.finditer(r"\bkeyword1", text, re.IGNORECASE))
keyword2=sum(1 for match in re.finditer(r"\bkeyword2", text, re.IGNORECASE))
res=re.findall("data_(\d+)_", filedata.name)
k=' '.join(res)
file_list.append({'company name': k,'keyword1':, 'keyword2':keyword2})
dft=pd.DataFrame(file_list)
dft.to_csv('keyword_count.csv', index=False)
【问题讨论】: