【问题标题】:Regex - extracting Text正则表达式 - 提取文本
【发布时间】:2012-10-23 06:54:50
【问题描述】:

我正在使用

(?<=Activties</h3>)[\w\s\/\,\-\.]*

从这里提取文本,但我只得到第一行。我想捕捉所有线条,直到下一个“h3 风格”。 “br”是否被捕获并不重要

  <h3 style="margin: 10px 0px 0px;">Beach Type</h3> sand <h3 style="margin: 10px 0px 0px;">Facilities</h3> Cafes/restaurant<br>Toilets<br>Disabled toilets<br> <h3 style="margin: 10px 0px 0px;">Activities</h3> Swimming<br>Fishing<br>Snorkeling<br> <h3 style="margin: 10px 0px 0px;">Nature and Wildlife</h3> Grandes Rocques is located at the start of Guernsey's 14km west coast footpath and cycle route. Port Soif Nature Trail and the Saumarez Nature trail are also located nearby. There is a diverse range of wildlife here. The first live Green Turtle to be rec <h3 style="margin: 10px 0px 0px;">Parking</h3> 200 spaces are available <h3 style="margin: 10px 0px 0px;">Water Quality</h3> Excellent <h3 style="margin: 10px 0px 0px;">Lifeguard</h3> No <h3 style="margin: 10px 0px 0px;">Cleaning and Litter</h3> The beach is cleaned daily by hand in the summer and twice a week in winter. There are litter and dog bins present. <h3 style="margin: 10px 0px 0px;">Awards and Recommendations</h3> Marine Conservation Society Recommended<br>

任何帮助将不胜感激。 感谢观看

欧米茄

【问题讨论】:

标签: regex text extract


【解决方案1】:

这是一个相当模糊的问题,但这样的事情可以满足您的要求:

(?<=Activities</h3>)(.*?)<h3

如果需要,您可以使 .*? 更具限制性。 .* 表示匹配任何内容,? 表示非贪婪(因此它将在找到的第一个 &lt;h3 处停止,而不是最后一个)。

【讨论】:

  • 那行得通,我只剩下洗澡了
    探索岩池

  • 您可以采用@Nic Wolfe 解决方案并将其更改为:(?&lt;=Activities&lt;/h3&gt;)(.*?)(?:&lt;h3)(?:

    表示捕获 '

  • 尝试过 (?)(.*?)(?:

  • @AndrewPerry 不是?:,它应该是?=,这将是一个积极的前瞻断言。 (?&lt;=Activities&lt;/h3&gt;)(.*?)(?=&lt;h3)
  • 感谢 Nic 的初步回答,非常感谢 stema 微调结果
【解决方案2】:
  1. 使用哪种语言?

  2. 通常最好使用 HTML/DOM 解析器从 HTML 中获取数据。我很确定情况就是这样。

  3. 您的字符类中没有&lt;&gt; 括号。为什么要匹配&lt;br&gt;标签?

  4. 你在哪里告诉模式在下一个&lt;h3 style停止?

【讨论】:

  • 不确定是哪种语言,我还没有包括方括号,因为那会包括 h3 样式,并且只停在 = 包括我不想要的文本“

  • 你在哪里使用正则表达式?使用编程语言还是编辑器?
  • 是提取工具的输出
  • 你写正则表达式的地方是什么?是什么给了你这样的结果?
猜你喜欢
  • 1970-01-01
  • 2015-09-04
  • 1970-01-01
  • 2017-10-08
  • 2021-12-12
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多