【发布时间】:2019-03-21 07:47:35
【问题描述】:
我有一个概念证明 Stormcrawler 安装指向我们的一个较小的大学网站(https://example.com - 大约 300 页),并且我对 SC 从正文内容中提取的信息量有疑问。该站点在页面顶部有大量菜单,而 SC 只是通过提取菜单内容在它切断之前获得了大部分方式,并且从未真正获得页面的真实内容。有没有办法告诉 SC 从页面中获取更多的正文内容?还是 Elasticsearch 方面的问题?我目前已经按照您发布的教程设置了 SC/ES。
谢谢! 吉姆
【问题讨论】:
标签: elasticsearch web-crawler stormcrawler