【发布时间】:2014-11-08 19:06:23
【问题描述】:
我是自然语言处理的新手,我想用它来编写一个新闻聚合器(在我的例子中是 Node.js)。我不只是使用预打包框架,而是想学习具体细节,我从 NLP 部分开始。我发现这是迄今为止最有帮助的一个教程:
http://www.p-value.info/2012/12/howto-build-news-aggregator-in-100-loc.html
在其中,作者获取 RSS 提要并通过它们循环查找元素(或字段)title 和 description。我知道 Python 并且理解代码。但我不明白的是 NLP 在这里用 title 和 description 做的事情(除了抓取和标记,这很明显......而且这些任务不需要 NLP)。
import feedparser
import nltk
corpus = []
titles=[]
ct = -1
for feed in feeds:
d = feedparser.parse(feed)
for e in d['entries']:
words = nltk.wordpunct_tokenize(nltk.clean_html(e['description']))
words.extend(nltk.wordpunct_tokenize(e['title']))
lowerwords=[x.lower() for x in words if len(x) > 1]
ct += 1
print ct, "TITLE",e['title']
corpus.append(lowerwords)
titles.append(e['title'])
【问题讨论】:
-
这个问题很不清楚。 NLP 不是做事的东西。我认为你应该改写你的问题。
标签: nlp