【发布时间】:2013-02-28 21:56:27
【问题描述】:
我想构建一个 Web 应用程序,让用户可以上传 文档、视频、图像、音乐,然后赋予他们搜索它们的能力。将其视为 Dropbox + 语义搜索。
当用户上传新文件时,例如Document1.docx,如何根据文件内容自动生成标签?换句话说,不需要用户输入来确定文件的内容。如果假设Document1.docx是一篇关于数据挖掘的研究论文,那么当用户搜索数据挖掘,或者研究论文,或者document1,该文件应该在搜索结果中返回,因为数据挖掘和研究论文很可能是该给定文档的潜在自动生成标签。
1.对于这个问题,您会推荐哪些算法?
2.有没有一个自然语言库可以为我做到这一点?
3.我应该研究哪些机器学习技术来提高标记精度?
4.如何将其扩展到视频和图像自动标记?
提前致谢!
【问题讨论】:
-
您将如何搜索视频?您会提供另一个视频还是(更自然地)输入一些描述它的词。如果是后者,您将需要用户参与标记。
-
我很确定你可以通过谷歌搜索得到很多文献。因为据我所知,甚至有大量关于尝试自动标记视频的研究工作。鉴于文本比视频或图像更容易被机器解释,我相信你可以在网站上找到你想要的。但请记住,没有完美的算法可以完全按照您的预期完成。
-
@jozefg 我现在有两个选择:a)输入几个关键字 b)提取音频通道,分析它的模式。如果是语音,则将语音解析为文本并提取相关关键字。如果是音乐,则将其传递给 Echospirit 进行音乐识别。所有其他情况将导致没有标签。
-
换句话说,你想建立谷歌。我推荐雄心勃勃的项目。
标签: algorithm machine-learning nlp tagging