【发布时间】:2018-03-30 10:37:46
【问题描述】:
我想使用终端计算文学文本“text.txt”中的词频,而不计算停用词(来自名为“stopwords.txt”的列表)。
cat text.txt | tr -sc 'A-Za-z' '\n' | tr 'A-Z' 'a-z' | egrep -vwFf stopwords.txt | sort | uniq -c
为什么这不起作用,正确的脚本应该是什么样的?
注意:输出应该从低频到高频排序!
【问题讨论】:
-
发布示例输入输出文件
-
在我的电脑上,您的
egrep -vwFf返回错误:grep: conflicting matchers specified。只需删除Fflag 即可为我解决此问题。 -
@Aserre 说得好
-
如果您喜欢管道,请附加
| sort -n以按频率排序。 -
@WalterA 它给了我频率列表,但在停用词内
标签: bash shell terminal grep frequency