NLP：构建（小型）语料库，或“从哪里获得大量不太专业的英语文本文件？”答案

【问题标题】：NLP: Building (small) corpora, or "Where to get lots of not-too-specialized English-language text files?"NLP：构建（小型）语料库，或“从哪里获得大量不太专业的英语文本文件？”
【发布时间】：2008-09-26 02:15:49
【问题描述】：

有没有人建议在哪里可以找到用于小型语料库的日常英语文本的档案或集合？我一直在使用 Gutenberg Project 书籍作为工作原型，并希望融入更多现代语言。这里的recent answer 间接指向了一个很棒的archive of usenet movie reviews，这是我没有想到的，而且非常好。对于这个特定的程序，技术用户网档案或编程邮件列表会使结果倾斜并且难以分析，但任何类型的一般博客文本、聊天记录或任何可能对其他人有用的东西都会非常有帮助。此外，非常感谢您提供一个部分或可下载的研究语料库，该语料库没有太多标记，或者一些用于查找适当的维基百科文章子集的启发式方法或任何其他想法。

（顺便说一句，我是一个不下载的好公民，使用故意缓慢的脚本，对托管此类材料的服务器没有要求，以防你认为将我指向一些巨大的东西存在道德风险。）

更新：用户 S0rin 指出维基百科不要求抓取，而是提供 this export tool。古腾堡项目有一个指定的政策here，底线，尽量不要爬行，但如果你需要：“配置你的机器人在请求之间至少等待 2 秒。”

更新 2 维基百科转储是要走的路，感谢指出它们的回答者。我最终从这里使用了英文版本：http://download.wikimedia.org/enwiki/20090306/，还有一个大约一半大小的西班牙转储。它们是一些需要清理的工作，但非常值得，并且它们在链接中包含许多有用的数据。

【问题讨论】：

标签： nlp linguistics corpus

【解决方案1】：

使用Wikipedia dumps
- 需要大量清理
看看nltk-data有什么帮助你
- 语料库通常很小
Wacky 人们有一些免费的语料库
- 已标记
- 您可以使用他们的工具包搜索自己的语料库
Europarl 是免费的，是几乎所有学术 MT 系统的基础
- 口语，翻译
Reuters Corpora 是免费的，但只能以 CD 形式提供

您总是可以拥有自己的，但请注意：HTML 页面通常需要大量清理，因此请限制自己使用 RSS 提要。

如果您在商业上这样做，LDC 可能是一个可行的替代方案。

【讨论】：

另外，4000 万字是一个理想的大小，而我一直使用到现在，Europarl 数据是完美的。
RSS 提要如果使用 CDATA 也可能不是那么干净，它允许将 HTML 嵌入到提要中。

【解决方案2】：

维基百科听起来像是要走的路。有一个experimental Wikipedia API 可能有用，但我不知道它是如何工作的。到目前为止，我只用自定义蜘蛛甚至wget 抓取了维基百科。

然后您可以搜索在 RSS 提要中提供完整文章文本的页面。 RSS，因为没有 HTML 标签妨碍您。

抓取邮件列表和/或 Usenet 有几个缺点：您将获得 AOLbonics 和 Techspeak，这将使您的语料库严重倾斜。

经典语料库是 Penn Treebank 和 British National Corpus，但它们是付费的。您可以阅读Corpora list archives，甚至向他们询问。也许您会使用Web as Corpus 工具找到有用的数据。

我实际上有一个正在建设的小项目，它允许对任意网页进行语言处理。它应该在接下来的几周内就可以使用了，但到目前为止，它并不是真正意义上的刮刀。但是我可以为它写一个模块，我想，功能已经存在了。

【讨论】：

请注意，维基百科要求人们不要使用网络爬虫查看页面，请参阅：en.wikipedia.org/wiki/… 他们通过“导出”页面提供运行时访问，请参阅：en.wikipedia.org/wiki/Special:Export

【解决方案3】：

如果您愿意付钱，您应该查看语言数据联盟（如 Penn Treebank）提供的数据。

【讨论】：

【解决方案4】：

维基百科似乎是最好的方法。是的，您必须解析输出。但是由于维基百科的分类，您可以轻松获得不同类型的文章和单词。例如通过解析所有的科学类别，你可以获得很多科学词汇。有关地点的详细信息将偏向于地理名称等。

【讨论】：

几周前我确实从维基百科找到了一个很棒的数据集，我会更新答案。维基媒体基金会提供了一些令人难以置信的资源。

【解决方案5】：

您已经涵盖了显而易见的问题。我能想到的唯一其他方面也可以补充：

1) 新闻文章/博客。

2) 杂志在网上发布了大量免费材料，您可以获得很好的主题。

【讨论】：

【解决方案6】：

查看维基百科数据，我注意到他们已经完成了some analysis on bodies of tv and movie scripts。我认为这可能是有趣的文本，但不是很容易获得——事实证明它无处不在，而且它的结构和可预测性足够强，应该可以清理它。 This site，标题为“网络上一个位置的一堆电影剧本和剧本”很有帮助，可能对偶然发现此线程并有类似问题的任何人有用。

【讨论】：

电视和电影剧本的一个问题是它们会受到版权保护。所以你必须小心版权。

【解决方案7】：

您可以在此处获取报价内容（形式有限）： http://quotationsbook.com/services/

此内容也恰好在 Freebase 上。

【讨论】：