【问题标题】:Determining the name of a company from a given text根据给定文本确定公司名称
【发布时间】:2016-01-25 06:02:44
【问题描述】:

我有一个属于股票市场域的网站。该网站有很多用户生成的内容,如论坛帖子、cmets 等。

另外,我有一个数据库表,其中包含在股票市场上市的所有公司(大约 5000 家)的名称。

现在,我想要的是,如果用户在评论或论坛帖子中提到了公司名称,我的程序将自动超链接以提供其股票价格详细信息。

现在,问题是用户可能不会使用我的数据库中可用的确切公司名称。例如,用户可能会写“FB”而不是 Facebook 或没有“inc”或“pvt.ltd”的公司名称。

我该如何解决这个问题?我认为由于公司数据库有限,机器学习方法将是一种矫枉过正。你有什么建议。

【问题讨论】:

  • 我建议找一些便宜的劳动力为你做这件事,因为这是一台计算机无法做到 100% 正确的事情

标签: c# classification text-classification


【解决方案1】:

最简单的方法是为公司存储多种可能性,例如FB 将与 FaceBook 同等处理。

这可以通过两种方式完成:

1) 通过添加所有备选方案来增加列表本身(5000 项)。这会产生一个相当大的数据库。

2) 创建一个仅完成转换的转换列表,例如FB->FaceBook等。比使用转换后,可以正常使用现有的公司数据库。这样就分担了责任。

您还可以尝试使用仅包含单词的名称部分(例如,Face Book -> FaceBook,或 Facebook->FaceBook、xxx.INC->xxx.inc 等)。

【讨论】:

  • @MemetOlsen 我不确定我是否理解你的评论......我猜他想要替代品。当然,所有备选方案都应该选择“好”。
猜你喜欢
  • 1970-01-01
  • 2013-11-13
  • 2020-11-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多