【问题标题】:How to get english language word database? [closed]如何获取英语单词数据库? [关闭]
【发布时间】:2011-01-13 21:23:24
【问题描述】:

我需要一个包含每个英语有效单词的数据库。我检查了/usr/share/dict/words 文件,它包含的单词少于 100k。维基百科说英语有 475k 单词。我在哪里可以获得完整的列表(美式拼写)?

另外,是否有一个网站也提供其他语言的单词,包括亚洲和欧洲语言?

编辑:忘了补充,我不需要名字等,只需要有效的英文单词。

【问题讨论】:

标签: database words


【解决方案1】:

WordNet 数据库可能会有所帮助。我曾经做过一个 Firefox 插件,它处理单词以及它们与东西之间的各种简单到复杂的关联。看起来 WordNet 对您非常有用。

这里是MySQL formatthis one(网络存档链接)使用 Wordnet v3.0 数据,而不是旧的 Wordnet 2.0 数据。

【讨论】:

  • 他们也有可下载的列表吗?
  • 是的,他们让您能够以多种格式下载他们的数据库 - CSV、MySQL 数据库等。甚至还有可以通过 .Net、Java 等使用的 API...是下载页面-wordnet.princeton.edu/wordnet/download
  • 我没有亲自下载它,但是当我开始编码时它已经准备好了。所以我不知道在哪个下载中会有什么文件。我只知道你可以下载不同的格式。如果您能告诉我您想要哪种格式,我可能会提供帮助。
  • 我安装了wordnet,但是找不到任何命令行,是不是只是一个库?
【解决方案2】:

你可以在infochimps.org找到你需要的东西。

他们有一个包含 350,000 个简单(即非复合)单词的列表,可供免费下载。

Word List - 350,000+ Simple English Words

关于其他语言,您可能想在维基词典上四处寻找。这是所有database backups 的链接 - 信息不太可能组织,但如果他们有语言,您可以下载 SQL 格式的数据。

【讨论】:

  • 下载链接已更改-infochimps.com/datasets/…
  • 令人讨厌的是 infochimps 文件是 .xls(一个包含 6 个工作表的单词的 excel 文件!)...我已经提取了所有 354986 个单词 放入 txt 文件github.com/nelsonic/english-words
  • @nelsonic 非常感谢,infochimps 链接是 404
  • @ChrisRae 两个链接都不起作用
  • 似乎它们包含拼写错误的单词,例如 tecnology - 大概是因为它们收集了出现在网络上的所有内容。所以它适用于密码破解/验证,但不适用于需要真实单词的应用程序(如拼写检查器等)。
【解决方案3】:

我没有看到这里提到的http://wordlist.sourceforge.net/,但如果我正在寻找类似的东西,我会从那里开始(当我偶然发现这个问题时,我就是这样)。

如果你在那里找不到你想要的,而你想要的是一个英文单词列表,那么你可能应该花一些额外的时间来描述如何识别你想要的是什么。

【讨论】:

  • 我希望这些更广泛的列表会包含带有标点符号的单词,例如“C++”或“C#”,但找不到。因此,如果这就是您可以短路后的结果,您可以跳过这个(以及其他答案中较窄的列表)。
  • @hobs 从技术上讲,“C++”是一个 C 单词(更可能来自 B 语言),不一定是英语单词。它实际上被定义为合法的 C 语法。没错,英语是借用了它,但它不是来自自然语言。
  • @SO_fix_the_vote_sorting_bug 我不认为这是真的。英语是一种动态的、非正式的语言。没有严格的逻辑定义或范畴论数学表达式或软件程序,您可以编写来识别什么是英文单词,什么不是英文单词。您必须为应用程序的单词列表中的创建一个统计模型。我认为 NL 是所有语言(正式和非正式)的超集,因为人类使用它们来相互交流。
【解决方案4】:

没有“完整”列表这样的东西。不同的人有不同的衡量方式——例如,它们可能包括俚语、新词、多词短语、冒犯性术语、外来词、动词变位等等。甚至有人数过a million words!所以你必须决定你想要的单词列表。

【讨论】:

  • 感谢您的链接。一本非常有启发性的读物,了解英语中有多少单词,以及试图对它们进行明确计数是徒劳的。要获得更简洁和最新的阅读,还有这个:en.oxforddictionaries.com/explore/language-questions/…
  • @HashimAziz 问题可能在于“英语”没有一个客观的定义,因为它只是一种共识类型的东西。人们可以列出“说英语的人在说英语时说过的每一句话”。但是你必须定义“说英语”和“说英语的人”。
【解决方案5】:

您可以查看 Mozilla、OpenOffice 和许多其他软件使用的 *spell en-GB dictionary

【讨论】:

【解决方案6】:

你没有说你需要这个列表做什么。如果用作密码检查的黑名单就足够了,cracklib 可能对您有好处。它包含超过 150 万字。

【讨论】:

  • 不,不适用于黑名单。我正在做某种文字游戏/图表。
  • 这有很多“垃圾词”,但是我仍然非常感谢你把它放在这里——它非常适合搜索其他字典没有的特定词(例如救火车)
猜你喜欢
  • 2013-05-13
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2013-01-07
  • 1970-01-01
  • 2011-07-06
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多