【发布时间】:2019-01-23 03:02:55
【问题描述】:
我有一个大的 URL 文本文件(>100 万个 URL)。 URL 代表跨多个不同域的产品页面。
我正在尝试从每个 URL 中解析出 SKU 和产品名称,例如:
- www.amazon.com/totes-Mens-Mike-Duck-Boot/dp/B01HQR3ODE/
- 手提包-男装-Mike-Duck-Boot
- B01HQR3ODE
- www.bestbuy.com/site/apple-airpods-white/5577872.p?skuId=5577872
- apple-airpods-白色
- 5577872
我已经找到了单独的正则表达式模式,用于解析我列表中所有域的 URL 的两个组成部分(产品名称和 SKU)。这是近 100 种不同的模式。
虽然我已经弄清楚如何一次测试这个 URL/模式,但我无法弄清楚如何构建一个脚本,该脚本将读取我的整个列表,然后根据相关的正则表达式模式。有什么建议可以最好地解决这个问题吗?
如果我的输入是一列 (URL),我想要的输出是 4 列(URL、域、产品名称、SKU)。
【问题讨论】:
-
显示您当前的代码/正则表达式/等
-
为澄清起见,我并没有要求有人为我编写代码,而是在寻找如何最好地解决这个问题的指导。我目前拥有的只是我使用各种正则表达式模式与 re 库中的 match 和 sub 函数测试出来的查询的混搭。
标签: python regex python-3.x