【发布时间】:2013-03-06 01:26:24
【问题描述】:
我正在计算大型文档中的 tf-idf。我的单词数超过80,000。我正在尝试在 csv 文件中编写稀疏矩阵。我正在使用类似于在此处回答的代码How to add a new column to a CSV file using Python?
输出文件太大,超过 700 MB,仅约 30,000 字。 所以,我的问题是如何有效地编写它? 谢谢。
【问题讨论】:
-
如果您将稀疏矩阵写入 CSV,那么您对文件大小确实无能为力。压缩能解决您的需求吗?使用主要是逗号的文件,您会获得惊人的压缩率。
-
另外,您只是想将信息保存到磁盘,还是设置为使用 .csv 格式?如果前者是真的,你有更多的选择。
-
@David 认为你已经涵盖了我要提出的所有观点 - 这个问题肯定需要更明确地定义
-
您是否评估过为大型文档计算和存储 tf-idf 的现有软件?例如,Sphinx 是开源的,用 C++ 编写,非常节省空间 + 内存 + 速度。 Python有一个API。 sphinxsearch.com
-
@David 我必须使用这个矩阵来做更多的事情。关于我应该如何进行的任何建议?我想将它保存在 csv 中并不是最佳解决方案。