【发布时间】:2015-06-03 03:16:05
【问题描述】:
我正在使用 Javascript 正则表达式来解析图像 url 的数据库字段并将它们格式化以输出 - 到目前为止,我一直在使用
input = input.replace(/(https?:\/\/.*?\.(?:png|jpe?g|gif)(.*))(\w|$)/ig, "<br><img style='max-width:100%;overflow:hidden;' src='$1'>");
它一直很好地为我服务。所有 png、jpe?g 和 gif 引用都被 IMG 标记替换,并且图像按预期显示在输出流中。
但是,我被抛出了一个循环。
我注意到一些网址(尤其是来自 Facebook CDN 的网址 - 尽管我认为其他人也可能这样做)在图像类型之后附加了一大堆“东西”......如果不存在结果的东西在文件不可用的情况下,会产生丢失的图像图标。例如,这是来自 fbcdn.net 的有效图片 url:
https://scontent-lga1-1.xx.fbcdn.net/hphotos-xtf1/v/t1.0-9/11147160_10156300867440377_5455334309678688318_n.jpg?oh=916e68ac2c908bbe15961825c373d6bc&oe=5606B6F4
有人可以建议对正则表达式进行更改/改进以获取额外的尾随字符吗?或者是否需要另一种攻击方法
(我个人喜欢全局正则表达式,因为我可以一次确定流中的所有实例......不必手动解析流不是我所期待的......)
更新:我知道请求中有一些含糊不清 - 希望这会澄清。
我需要提取任何图像 url - 无论图像扩展后的“东西”如何。它可能是文本字符串中的第一项,也可能是最后一项,或者嵌入在中间的某个位置。
处理是在 Javascript 中完成的。我目前正在使用它作为我的有效性测试。其中的所有图片都是从 Google 图片搜索中提取的有效 url。
http://well-being.esdc.gc.ca/misme-iowb/auto/diagramme-chart/stg2/c_4_21_6_1_eng.png?20150508104424447 This is arbitrary text https://scontent-lga1-1.xx.fbcdn.net/hphotos-xtf1/v/t1.0-9/11147160_10156300867440377_5455334309678688318_n.jpg?oh=916e68ac2c908bbe15961825c373d6bc&oe=5606B6F4 this is arbitrary text
http://lh6.ggpht.com/-1Rua79J-EDo/TwuyZkHwcmI/AAAAAAAADvA/ENfg1TeayvU/type_catalog_error_thumb%25255B1%25255D.jpg?imgmax=800 this is arbitrary text http://image.slidesharecdn.com/top5thingstodoafteranaccident-140826163850-phpapp02/95/top-five-things-to-do-after-any-type-of-accident-causing-injury-1-638.jpg?cb=1409089267
希望这对我可能遇到的变化类型有足够的了解(我唯一确定的是 FBCDN - 我的其他人基于我在外面看到的其他知识......所以需要通用的解决方案,而不是特定于 FBCDN 的解决方案)。
感谢所有提供建议的人......
【问题讨论】:
-
要捕捉可选的问号和其他问题,您可以使用
(\?blabla)?,但输入这听起来太容易了。有问题吗? -
@MrLister - 是的,问题是我盯着它看的时间太长了,我在 regexpal.com 上的测试一无所获。我尝试的所有变体要么太贪心,要么不够贪心。 FB 网址具有一定的一致性——但我确信我应该将自己限制在这一点上。我还看到一些(示例不可用,抱歉)附加了尺寸信息,还有一些似乎附加了时间戳(用于缓存?)谁知道其他人放了什么邪恶的混合物。
标签: javascript regex