【发布时间】:2021-07-30 15:08:58
【问题描述】:
有没有一种方法可以在我的代码中以 HTML 格式读取整个网站,然后将 HTML 转换为 java 或 json 对象,有点?抓取网站并从某些 div 中提取文本会很酷。有没有办法为此使用编组器?
【问题讨论】:
标签: java json jackson web-crawler marshalling
有没有一种方法可以在我的代码中以 HTML 格式读取整个网站,然后将 HTML 转换为 java 或 json 对象,有点?抓取网站并从某些 div 中提取文本会很酷。有没有办法为此使用编组器?
【问题讨论】:
标签: java json jackson web-crawler marshalling
您可以查看xpath,它可用于识别网页上的 html 元素。它可以选择某些元素或使用正则表达式搜索文本。
例如,这将是您的问题段落//*[@id="question"]/div/div[2]/div[1]/p(从 chrome 开发工具中提取)的 xpath。如果你想使用java爬取网页,它可以与selenium web driver结合使用。
【讨论】: