【发布时间】:2012-04-05 05:31:03
【问题描述】:
我只是想知道一个网页是否是英文的。有什么好的方法吗?
我找到的最接近的是Detect language from string in PHP,但它对我有一些用处..
有什么建议吗?
我有一个非英语样本site:
【问题讨论】:
-
我会搜索“the”这个词。如果是英文,应该有很多“the”。
-
上述俄罗斯示例网站确实包含一些“the's”。
我只是想知道一个网页是否是英文的。有什么好的方法吗?
我找到的最接近的是Detect language from string in PHP,但它对我有一些用处..
有什么建议吗?
我有一个非英语样本site:
【问题讨论】:
一些可能感兴趣的项目包括:
【讨论】:
我使用http://www.alchemyapi.com/ 来检测语言。您获取文本的 sn-p 并将其传递给他们的 API。它检测到大多数语言并且非常准确。他们提供了一个免费的 API,每天允许 1,000 个请求,这对于适度使用是可以接受的。否则价格飞涨。
你也可以试试谷歌翻译 API:
http://code.google.com/apis/language/translate/v2/getting_started.html#language_detect
然后就是这个:
http://langid.net/identify-language-from-api.html
他们免费提供了很多请求,但我不知道它们的准确性如何。绝对值得一看。
【讨论】:
似乎几乎所有/很多可能性都可以在您的链接问题中检测到一种语言。为什么您不能使用建议的答案之一?
另一种解决方案(但不可靠)是寻找带有语言信息的元标记,例如:
<meta name="DC.language" content="en" scheme="DCTERMS.RFC3066">
<meta name="keywords" lang="en" content="some content">
<meta http-equiv="content-language" content="en">
【讨论】: