【问题标题】:How to programmatically determine what language the content of a website is written in如何以编程方式确定网站内容的编写语言
【发布时间】:2011-11-15 10:49:16
【问题描述】:

我想以编程方式确定网站内容的编写语言。

我唯一想到的就是将网站内容与特定语言常用的一组词进行比较,然后根据匹配百分比确定语言。

有没有更好更健壮的方法来解决这个问题?

【问题讨论】:

标签: artificial-intelligence nlp


【解决方案1】:

如果您可以使用 API(而不必编写自己的 API),请查看此问题的特定答案:https://stackoverflow.com/questions/6151668/alternative-to-google-translate-api/8121813#8121813

引用:

如果只需要语言检测,可以使用免费的网络服务:

http://detectlanguage.com

它与 Google Translate API 请求/响应格式兼容。

【讨论】:

  • 但是,如果目标是翻译文本以及查找其语言,则那里的资源很有用;然而,提问者似乎只对寻找某些文本的自然语言感兴趣。
  • 我链接到的具体答案提供了语言检测。
【解决方案2】:

带有语言分类示例的神经网络教程 基于字母的平均频率 http://fann.sourceforge.net/fann_en.pdf

【讨论】:

    【解决方案3】:

    我不知道你是否对特定语言有偏好,但 Python 也有一个用于语言检测的包,名为 langdetect

    与其他提出的方法相比,它的优点是:

    • 离线,因此不需要额外的 API 调用。
    • 开箱即用。无需定制培训。

    它基于谷歌的自动语言检测,默认支持55种语言。

    安装

    你可以使用安装它

    pip install langdetect
    

    然后例如运行

    from langdetect import detect
    
    detect("War doesn't show who's right, just who's left.")
    detect("Ein, zwei, drei, vier")
    

    将分别返回 'en' 和 'de'。

    这假设您已经将网站内容作为纯文本提供。如果您需要下载内容,例如可以使用requests package

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2010-09-20
      • 2020-11-14
      • 2018-08-06
      • 1970-01-01
      • 1970-01-01
      • 2011-04-22
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多