【发布时间】:2015-07-17 01:46:06
【问题描述】:
首先,说我是python新手。目前,我正在将大量 R 代码“翻译”成 python 并一路学习。这个问题与replicating R in Python 相关(在那里他们实际上建议使用rpy2 来结束它,我想避免出于学习目的)。
在我的例子中,我实际上并不想在 python 中完全复制 R,而是想学习一种“pythonian”的方式来做我在这里描述的事情:
我有一个长向量(40000 个元素),其中每个元素都是一段文本,例如:
> descr
[1] "dress Silver Grey Printed Jersey Dress 100% cotton"
[2] "dress Printed Silk Dress 100% Silk Effortless style."
[3] "dress Rust Belted Kimono Dress 100% Silk relaxed silhouette, mini length"
然后我将其预处理为,例如:
# customized function to remove patterns in strings. used later within tm_map
rmRepeatPatterns <- function(str) gsub('\\b(\\S+?)\\1\\S*\\b', '', str,
perl = TRUE)
# process the corpus
pCorp <- Corpus(VectorSource(descr))
pCorp <- tm_map(pCorp, content_transformer(tolower))
pCorp <- tm_map(pCorp, rmRepeatPatterns)
pCorp <- tm_map(pCorp, removeStopWords)
pCorp <- tm_map(pCorp, removePunctuation)
pCorp <- tm_map(pCorp, removeNumbers)
pCorp <- tm_map(pCorp, stripWhitespace)
pCorp <- tm_map(pCorp, PlainTextDocument)
# create a term document matrix (control functions can also be passed here) and a table: word - freq
Tdm1 <- TermDocumentMatrix(pCorp)
freq1 <- rowSums(as.matrix(Tdm1))
dt <- data.table(terms=names(freq1), freq=freq1)
# and perhaps even calculate a distance matrix (transpose because Dist operates on a row basis)
D <- Dist(t(as.matrix(Tdm1)))
总的来说,我想知道在 python 中执行此操作的适当方法,主要是文本处理。
例如,我可以删除它们在get rid of StopWords and Numbers 中描述的停用词和数字(尽管对于这样一个简单的任务来说似乎需要做很多工作)。但是我看到的所有选项都意味着处理文本本身而不是映射整个语料库。换句话说,它们意味着通过descr 向量“循环”。
无论如何,任何帮助将不胜感激。另外,我有一堆自定义函数,比如rmRepeatPatterns,所以学习如何映射这些函数会非常有用。
提前感谢您的宝贵时间。
【问题讨论】:
标签: python r nltk text-mining tm