【问题标题】:Matching commas between HTML tags in a CSVCSV 中 HTML 标记之间的匹配逗号
【发布时间】:2015-08-12 07:57:40
【问题描述】:

我有一个 CSV,我正在尝试重新格式化它,其中包含一些 HTML,但 HTML 中包含逗号,这让生活变得很困难。

如何使用正则表达式将 HTML 标记中的逗号替换为 HTML 实体。

到目前为止,我已经尝试过>(.+?),(.+?)< 之类的方法,但无济于事。

我可能会使用文本编辑器进行实际替换,很可能是 Atom。

编辑: 这是一个示例:

U,4,EXAMPLESKU,<font face="Times New Roman" size="3">  <p align="center"><font face="Times New Roman" size="3"><strong><span style="font-size: medium;">&nbsp;<span style="font-size: medium;">Example</span></span></strong></font></p>  <p align="center"><font face="Times New Roman" size="3">Content goes in here, including commas, sometimes multiple.</font><a href="mailto:email@example.com"><font face="Times New Roman" size="3">email@example.com</font></a><font face="Times New Roman" size="3">. <br/>  Some more content here, including commas, sometimes multiple.</font>&nbsp;&nbsp; </p>  </font>,image.jpg,9.99,Example,3~53,0.00,0,0,0,0.500,2,1

【问题讨论】:

  • 能否提供样品?
  • @npinti 我从 CSV 添加了一个示例行

标签: regex regex-negation


【解决方案1】:

有关详细信息,请参阅我解决此问题的帖子。

^(?:(?:"((?:""|[^"])+)"|([^,]*))(?:$|,))+$ 将匹配整行,然后您可以使用 match.Groups[1 ].Captures 获取数据(不带引号)。另外,我让 "My name is ""in quotes""" 成为一个有效的字符串。

【讨论】:

  • 你能链接到你的帖子吗?
  • 这不适用于完整的 CSV,因为这会将逗号之间的内容分组,但是我无法确定给定列中会有多少个逗号。
猜你喜欢
  • 1970-01-01
  • 2013-09-18
  • 1970-01-01
  • 1970-01-01
  • 2015-05-30
  • 2017-07-31
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多