【发布时间】:2008-09-26 02:15:49
【问题描述】:
有没有人建议在哪里可以找到用于小型语料库的日常英语文本的档案或集合?我一直在使用 Gutenberg Project 书籍作为工作原型,并希望融入更多现代语言。这里的recent answer 间接指向了一个很棒的archive of usenet movie reviews,这是我没有想到的,而且非常好。对于这个特定的程序,技术用户网档案或编程邮件列表会使结果倾斜并且难以分析,但任何类型的一般博客文本、聊天记录或任何可能对其他人有用的东西都会非常有帮助。此外,非常感谢您提供一个部分或可下载的研究语料库,该语料库没有太多标记,或者一些用于查找适当的维基百科文章子集的启发式方法或任何其他想法。
(顺便说一句,我是一个不下载的好公民,使用故意缓慢的脚本,对托管此类材料的服务器没有要求,以防你认为将我指向一些巨大的东西存在道德风险。)
更新:用户 S0rin 指出维基百科不要求抓取,而是提供 this export tool。古腾堡项目有一个指定的政策here,底线,尽量不要爬行,但如果你需要:“配置你的机器人在请求之间至少等待 2 秒。”
更新 2 维基百科转储是要走的路,感谢指出它们的回答者。我最终从这里使用了英文版本:http://download.wikimedia.org/enwiki/20090306/,还有一个大约一半大小的西班牙转储。它们是一些需要清理的工作,但非常值得,并且它们在链接中包含许多有用的数据。
【问题讨论】:
标签: nlp linguistics corpus