【发布时间】:2014-01-18 19:49:41
【问题描述】:
我想使用 Python 计算文本输入块中某些标点字符之间出现的单词数。例如,对到目前为止所写的所有内容的这种分析可能表示为:
[23,2,14]
...因为第一个句子除了结尾的句号没有标点符号,有 23 个单词,接下来的“例如”短语有两个,其余以冒号结尾的短语有 14 个。
这可能不会太难做,但是(与“不要重新发明轮子”的哲学相一致,这似乎特别是 Pythonic)是否已经有任何东西特别适合这项任务?
【问题讨论】:
-
另外,有任何你想解决的问题的真实例子吗?
-
我尝试了一些随意的网络搜索(其中显示了很多用于词频计数的解析器等);也许这已经足够琐碎了,我自己写它的骨头毕竟不会有太大的麻烦。不过,以非专家的身份提问永远不会有什么坏处。至于问题,更像是一个实验。这只是其中的一小部分。
标签: python parsing text package text-analysis