【发布时间】:2011-07-12 15:52:09
【问题描述】:
我需要从 Facebook 和 Twitter 中提取帖子和推文到我们的数据库中进行分析。我的问题是系统只能处理英文句子(短语)。那么如何从我的数据库中删除非英语帖子、推文。
如果你知道 NLP 中的任何算法都可以做到这一点,请告诉我。
感谢和问候
【问题讨论】:
-
这听起来像是语言识别问题:en.wikipedia.org/wiki/Language_identification
-
Language detection for very short text 的可能重复项(我的回答专门针对 Twitter)