【发布时间】:2021-02-24 21:12:58
【问题描述】:
我有一个包含多个 html 文件的文件夹。我希望代码遍历每个文件并使用 nlp 选择主语动词对象三元组。然后,我希望 pandas 在一个数据框中将所有文件的所有文件的主题动词对象的标题下列出。我面临的问题是熊猫只列出了最后一个文件中的主语动词对象,而不是前两个。当我在循环中打印 sub_verb_obj 时,它会在一个列表中显示 3 个列表。但是 pandas 不会选择 3 个列表三元组。谁能告诉我我做错了什么?
sub_verb_obj=[]
folder_path = 'C:/Users/user3/.ipynb_checkpoints/xyz/xyz_2018'
for filename in glob.glob(os.path.join(folder_path, '*.html')):
with open(filename, 'r',encoding='utf-8') as f:
pat = f.read()
doc=nlp(text)
text_ext = textacy.extract.subject_verb_object_triples(doc)
sub_verb_obj=list(text_ext)
sao=pd.DataFrame(sub_verb_obj)
sao.columns=['subject','verb','object']
sao=sao.set_index('subject')
print(sao)```
how can I make sure the pandas lists all the subject verb object from all the files in a folder in a single dataframe?
【问题讨论】:
标签: python pandas list dataframe nlp