【发布时间】:2012-04-18 14:07:39
【问题描述】:
我正在做一个项目,该项目需要用 Java 设计一个网络爬虫,它可以获取用户对特定新闻主题的查询,然后访问不同的新闻网站,然后从这些页面中提取新闻内容并将其存储在一些文件中/数据库。我需要这个来总结整个存储的内容。我是这个领域的新手,所以希望有经验的人提供一些帮助。
现在我有从单个页面中提取新闻内容的代码,该页面手动获取页面,但我不知道如何将它集成到网络爬虫中以从不同页面中提取内容。
谁能提供一些Java教程或实现的好链接,我可以根据需要使用或修改它们吗?
【问题讨论】:
标签: java web-scraping web-crawler