【发布时间】:2017-05-05 14:52:42
【问题描述】:
如何在保留<a> 标签的同时从关注<p> 中提取文本
<p>
Some <a href="http://somewhere.com">link</a> going somewhere.
<ul>
<li><a href="http://lowendbox.com/">Low end</a></li>
</ul>
Some trailing text.
</p>
预期输出:
Some <a href="http://somewhere.com">link</a> going somewhere.
<a href="http://lowendbox.com/">Low end</a>
Some trailing text.
我能想到的唯一解决方案是覆盖 Nokogiri text 方法并递归 children,希望有一些简单的解决方案。
【问题讨论】:
-
欢迎来到 Stack Overflow。请参阅“minimal reproducible example”和 Jon Skeet 的“Writing the perfect question”。我们需要看到你努力的证据。您是否寻找解决方案?如果是这样,你发现了什么,为什么没有帮助?你写代码了吗?如果不是,为什么?如果是这样,您编写的演示您遇到的问题的最少代码是多少。否则,您似乎并没有尝试并希望我们为您解决问题,这不是 SO 的目的。
-
你想做的事情并不难,但也并不简单。您必须获取
<p>标记的inner_html,然后提升内部<a>以替换<ul>。我不会为您编写代码,因为它在 SO 和 Nokogiri 教程中的多个答案中并且您没有表现出努力。向我们展示您写的内容,我们会付出更多努力来帮助您。
标签: ruby web-scraping nokogiri mechanize