【发布时间】:2024-01-18 06:26:01
【问题描述】:
我在 Ruby 中创建了一个单词计数器,作为学习 Ruby 的一个小练习。
我在 JavaScriptKit.com 和 WordCountTool.com 以及 Open Office Writer 中使用过单词计数器。
一些文本产生了以下结果
OpenOffice: 458 words
JavaScriptKit: 453 words
WordCountTool: 455 words
Mine: 461 words
我的问题是:为什么所有计数器的相同摘录的计数不同?
脚本中有哪些问题可能导致计数不准确但仍接近计数?
有哪些方法可以改进我的脚本以使其更准确?
【问题讨论】:
-
你能发布一个给出不同计数的示例文本吗?我猜这可能来自微小的差异,例如连字符的单词是否计为一个或两个,以及它如何处理某些缩写 s.a.这个。
-
我认为这基本上是由于一些小错误,比如 - 有些程序在看到空格时会计算一个新单词,但这是不正确的,因为他们会看到类似“然后......我意识到" 并将 "then...i" 视为一个单词,或将连字符的单词视为一个单词。
-
如果某些程序不能正确处理字符集问题,也可能会导致差异。你的文字是什么字符集?
-
@serabe,这不是关于特定代码的问题.. 而是导致脚本之间计数差异的真正原因——这些差异的原因是什么,如何避免“错误”等等。跨度>
-
@Melanie,对不起,我误解了你。
标签: ruby word-count