【发布时间】:2011-08-27 04:21:32
【问题描述】:
我即将开始一个新项目,我将在其中执行大量文本处理任务,例如搜索、分类/分类、聚类等。
需要处理大量文件;可能有数百万份文件。在初始处理之后,它还必须能够每天更新多个新文档。
我可以使用 Python 来执行此操作,还是 Python 太慢了?最好用Java吗?
如果可能的话,我更喜欢 Python,因为这是我最近一直在使用的。另外,我会更快地完成编码部分。但这一切都取决于 Python 的速度。我使用 Python 完成了一些只有几千个文档的小规模文本处理任务,但我不确定它的扩展效果如何。
【问题讨论】:
标签: java python nlp information-retrieval text-mining