【发布时间】:2018-04-15 07:43:57
【问题描述】:
我有一些 .txt 格式的文本文件。
我正在尝试使用它们创建一个 .csv 文件,以便 .txt 文件位于索引列中。
稍后我会在编辑数据框时添加包含人口统计和统计信息的列(例如 L1、Prompt 和 Level),但我想对齐索引中的 txt 文件,以便进行一些 NLTK 分析。
想要的输出是:
L1 Prompt Level
FileName
data1.txt Japanese P1 High
data2.txt Korean P1 High
data3.txt Chinese P1 High
data4.txt Japanese P2 Med
data5.txt Korean P2 Med
data6.txt Chinese P2 Med
data7.txt Arabic P1 High
data8.txt German P1 High
data9.txt Spanish P1 High
data10.txt Arabic P2 Med
data11.txt German P2 Med
data12.txt Spanish P2 Med
我试过的代码如下
df1=pd.read_csv('data1.txt',names=['data1'])
df2=pd.read_csv('data2.txt',names=['data2'])
df3=pd.read_csv('data3',names=['data3'])
result=pd.concat([df1,df2,df3],axis=1)
result.to_csv('mergedfile.txt',index=False)
但这当然会创建列
data1.txt data2.txt data3.txt
0 XYZ GHI PQR
1 ABC JKL STU
2 DEF MNO VWX
XYZ 和 ABC 都是句子,例如“我的祖国和美国的区别之一是便利店”。或“一个区别是公共交通,每个人都在我的祖国乘坐公共交通,而在美国则没有那么多。”
每个 txt 文件我有超过 100,000 个话语,所以我不想将所有数据都放在数据框中,如果我可以将 txt 文件放入索引列,那将是最理想的。
最终,我想将其导出为 .csv,然后将其用于进一步分析。
【问题讨论】:
-
您必须提供有关文本文件格式的更多信息
-
@Primusa 在此处添加了更多信息,希望对您有所帮助!基本上它只是一个巨大的 txt 文件,上面有超过 100,000 个句子。
标签: python pandas csv dataframe