【发布时间】:2011-12-17 14:10:46
【问题描述】:
我通常对通过抓取网站进行数据挖掘感兴趣,但我从来没有找到很多关于我真正想要实施的过程的文档。我非常热衷于编写一组基本规则来定义如何解析页面,然后在工具出错时对其进行训练。
假设我想解析餐厅网站上的菜单。我想创建一个工具,让我可以编写一组规则,通常显示菜单项+价格的位置。然后,我可以运行该工具并告诉它正确解析出哪些菜单项,哪些是错误的。然后,该工具将从这些更正中“学习”,下次运行它时,我会得到更好的结果。
我看了一些 NLTK 工具包,我想知道解决这个问题的最佳方法是否是使用 NLP 工具,比如 NLTK。谁能指出我寻找可以帮助我入门的书籍和(理想情况下)图书馆的正确方向? NLP是要走的路吗?谢谢!
【问题讨论】:
标签: nlp web-crawler data-mining nltk