【发布时间】:2016-08-15 13:59:29
【问题描述】:
我正在研究一个 NLP 问题(在 Python 2.7 中),以从报告中的文本中提取新闻报告的位置。对于这项任务,我使用了运行良好的 Clvin API。
但是我注意到,报告本身的 URL 中经常提到位置区域的名称,我想找到一种方法从域名中提取此实体,以提高从Clvin 通过在请求中提供额外的命名实体。
在理想的世界中,我希望能够提供以下输入:
www.britainnews.net
并返回这个或类似的输出:
[www,britain,news,net]
当然,我可以使用 .split() 功能来分离不重要的 www 和 net 标记,但是我不知道如何在没有密集字典查找的情况下分割中间短语。
我不是要求某人解决这个问题或为我编写任何代码 - 但这是一个公开征集,就理想的 NLP 库(如果存在)或如何解决这个问题的任何想法提出建议.
【问题讨论】:
标签: python string machine-learning nlp