【发布时间】:2015-08-12 07:57:40
【问题描述】:
我有一个 CSV,我正在尝试重新格式化它,其中包含一些 HTML,但 HTML 中包含逗号,这让生活变得很困难。
如何使用正则表达式将 HTML 标记中的逗号替换为 HTML 实体。
到目前为止,我已经尝试过>(.+?),(.+?)< 之类的方法,但无济于事。
我可能会使用文本编辑器进行实际替换,很可能是 Atom。
编辑: 这是一个示例:
U,4,EXAMPLESKU,<font face="Times New Roman" size="3"> <p align="center"><font face="Times New Roman" size="3"><strong><span style="font-size: medium;"> <span style="font-size: medium;">Example</span></span></strong></font></p> <p align="center"><font face="Times New Roman" size="3">Content goes in here, including commas, sometimes multiple.</font><a href="mailto:email@example.com"><font face="Times New Roman" size="3">email@example.com</font></a><font face="Times New Roman" size="3">. <br/> Some more content here, including commas, sometimes multiple.</font> </p> </font>,image.jpg,9.99,Example,3~53,0.00,0,0,0,0.500,2,1
【问题讨论】:
-
能否提供样品?
-
@npinti 我从 CSV 添加了一个示例行
标签: regex regex-negation