使用 R 问题进行网络爬虫答案

【问题标题】：Web crawling with R questions使用 R 问题进行网络爬虫
【发布时间】：2018-09-20 05:08:34
【问题描述】：

我目前在 R 编程中使用 XML 包，以及 POST 和 xpathSApply 函数进行网络爬取。当满足搜索条件的值超过 2 个时，我想只取第一个值。

在图片中，我只想提取位于<li> 和</li> 之间的“짜증 나”部分。目前，我正在使用以下命令

tdReplace = xpathSApply(html, "//td[@class='tdReplace']/ul/li[2]/a", xmlValue)

没有成功。我应该如何解决这个问题？

【问题讨论】：

欢迎来到 SO，请以文本形式发布示例，绝不鼓励使用图像文本，请编辑您的帖子。
请包含纯文本形式的 HTML 或指向 HTML 来源 URL 的链接。
链接地址为speller.cs.pusan.ac.kr post_result = POST("speller.cs.pusan.ac.kr/PnuWebSpeller/lib/check.asp", body = list(text1 = inputword), encode = "form") html = htmlParse(post_result, encoding = "UTF- 8")

【解决方案1】：

考虑改用rvest。它包括一个函数html_node()，它返回匹配节点的第一个实例。

没有看到你的 HTML 很难测试，但是从 URL my_url 解析 HTML，这样的东西应该可以工作：

library(rvest)

my_url %>%
  read_html() %>%
  html_node("td.tdReplace ul li a") %>%
  html_text()

【讨论】：