【发布时间】:2011-11-15 10:49:16
【问题描述】:
我想以编程方式确定网站内容的编写语言。
我唯一想到的就是将网站内容与特定语言常用的一组词进行比较,然后根据匹配百分比确定语言。
有没有更好更健壮的方法来解决这个问题?
【问题讨论】:
标签: artificial-intelligence nlp
我想以编程方式确定网站内容的编写语言。
我唯一想到的就是将网站内容与特定语言常用的一组词进行比较,然后根据匹配百分比确定语言。
有没有更好更健壮的方法来解决这个问题?
【问题讨论】:
标签: artificial-intelligence nlp
如果您可以使用 API(而不必编写自己的 API),请查看此问题的特定答案:https://stackoverflow.com/questions/6151668/alternative-to-google-translate-api/8121813#8121813
引用:
如果只需要语言检测,可以使用免费的网络服务:
它与 Google Translate API 请求/响应格式兼容。
【讨论】:
带有语言分类示例的神经网络教程 基于字母的平均频率 http://fann.sourceforge.net/fann_en.pdf
【讨论】:
我不知道你是否对特定语言有偏好,但 Python 也有一个用于语言检测的包,名为 langdetect。
与其他提出的方法相比,它的优点是:
它基于谷歌的自动语言检测,默认支持55种语言。
你可以使用安装它
pip install langdetect
然后例如运行
from langdetect import detect
detect("War doesn't show who's right, just who's left.")
detect("Ein, zwei, drei, vier")
将分别返回 'en' 和 'de'。
这假设您已经将网站内容作为纯文本提供。如果您需要下载内容,例如可以使用requests package。
【讨论】: