【发布时间】:2014-10-05 03:59:57
【问题描述】:
我有一组乳胶格式的输入段落。我想用它们创建一个词袋。
采取一组看起来像这样的人:
"Some guy did something with \emph{ yikes } $ \epsilon $"
我想出一本字典:
{
"Some": 40,
...
"yikes": 10
"epsilon (or unicode for it)": 3
}
也就是说,我需要一个字典,其中的键集是所有段落中的单词/符号/方程式(为了简洁起见,我将所有这些单词都称为)的集合,以及它们在所有段落中出现的计数。
从那里给定的 k-ordered-tuple 单词,我需要一个 k-array 用于每个段落,其中数组中的第 i 个元素表示该段落中第 i 个元组中单词的计数。
所以说(Some, dunk, yikes, epsilon) 会给我
[1, 0, 1, 1] 用于所述示例。
我已经尝试过使用词法分析器将标记取出并直接处理标记。这很困难且容易出错,更不用说速度慢了。有没有更好的策略或工具可以做到这一点?
有一些特殊字符需要考虑的极端情况:
G\""odel => Gödel
例如。我想保留这些。
另外,我想将方程式全部放在一起或将它们保留为一个单词。方程出现在 $ ... $ 符号之间。
【问题讨论】:
-
你想做什么? “矢量化”是什么意思?你能举个例子——输入和期望的输出吗?
-
嗨 Falko,我认为这篇 wiki 文章提供了一个很好的例子:en.wikipedia.org/wiki/Bag-of-words_model#Example_implementation。除了在我的情况下输入是乳胶
-
我知道词袋的计算机视觉概念。但仅从“矢量化”和“词袋”这两个术语,就不可能推断出您的实际目标是什么。我猜你想建立字典? - 为了吸引别人来帮助你,你应该给出一个清晰的最低限度的例子,说明你拥有什么以及你想要什么。
-
好的,谢谢,我会修改它以反映它。
-
谢谢,好多了! :)
标签: machine-learning scikit-learn text-mining feature-extraction