【问题标题】:Web crawling with R questions使用 R 问题进行网络爬虫
【发布时间】:2018-09-20 05:08:34
【问题描述】:

我目前在 R 编程中使用 XML 包,以及 POST 和 xpathSApply 函数进行网络爬取。当满足搜索条件的值超过 2 个时,我想只取第一个值。

在图片中,我只想提取位于<li></li> 之间的“짜증 나”部分。目前,我正在使用以下命令

tdReplace = xpathSApply(html, "//td[@class='tdReplace']/ul/li[2]/a", xmlValue)

没有成功。我应该如何解决这个问题?

【问题讨论】:

  • 欢迎来到 SO,请以文本形式发布示例,绝不鼓励使用图像文本,请编辑您的帖子。
  • 请包含纯文本形式的 HTML 或指向 HTML 来源 URL 的链接。
  • 链接地址为speller.cs.pusan.ac.kr post_result = POST("speller.cs.pusan.ac.kr/PnuWebSpeller/lib/check.asp", body = list(text1 = inputword), encode = "form") html = htmlParse(post_result, encoding = "UTF- 8")

标签: r xml web-scraping


【解决方案1】:

考虑改用rvest。它包括一个函数html_node(),它返回匹配节点的第一个实例。

没有看到你的 HTML 很难测试,但是从 URL my_url 解析 HTML,这样的东西应该可以工作:

library(rvest)

my_url %>%
  read_html() %>%
  html_node("td.tdReplace ul li a") %>%
  html_text()

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2013-08-03
    • 2019-03-26
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多