【发布时间】:2015-05-28 15:03:09
【问题描述】:
我正在尝试读取一个文本文件并使用文本挖掘包创建一个术语文档矩阵。我可以创建术语文档矩阵,我需要逐行添加每一行。问题是我想一次包含整个文件。我在以下代码中缺少什么?提前感谢您的任何建议?
import textmining
def term_document_matrix_roy_1():
'''-----------------------------------------'''
with open("data_set.txt") as f:
reading_file_line = f.readlines() #entire content, return list
print reading_file_line #list
reading_file_info = [item.rstrip('\n') for item in reading_file_line]
print reading_file_info
print reading_file_info [1] #list-1
print reading_file_info [2] #list-2
'''-----------------------------------------'''
tdm = textmining.TermDocumentMatrix()
#tdm.add_doc(reading_file_info) #Giving error because of readlines
tdm.add_doc(reading_file_info[0])
tdm.add_doc(reading_file_info[1])
tdm.add_doc(reading_file_info[2])
for row in tdm.rows(cutoff=1):
print row
示例文本文件:“data_set.txt”包含以下信息:
让我们写一些python代码
到目前为止,本书主要讨论了即席检索的过程。
在此过程中,我们将学习一些重要的机器学习技术。
输出将是 Term Document Matrix,基本上是一个特定单词出现了多少次。 输出图片:http://postimg.org/image/eidddlkld/
【问题讨论】:
-
你并没有真正提出问题。你得到的输出是什么?你在期待什么?什么不起作用?错误信息是什么?
-
正如我在问题中提到的,从文本文件的每一行中,我将在数组中一一添加,但是如何添加整个文件内容。所以它从文本文件中逐行读取并显示术语文档矩阵?谢谢
-
@Burhan Khalid 问题现已更新为图片。
-
对于制作 TDM 的其他人,我会查看以下关于 gensim 的教程:radimrehurek.com/gensim/tut1.html
标签: python matrix term-document-matrix