【发布时间】:2019-05-15 12:01:04
【问题描述】:
在抓取网站数据时,我低于 o/p:
['1 汤匙\n植物油或椰子油\n1 汤匙\n新鲜生姜去皮切碎(1 英寸)\n2 瓣\n大蒜,切碎\n3 汤匙\n纯素泰式红咖喱酱,例如 Thai Kitchen \n2\n中等红薯(总共约 1 磅),去皮并切成 1/2 英寸的方块\n1(15 盎司)罐头\鹰嘴豆,沥干并冲洗干净\n1(13 到 14 盎司)罐头\n满- 高脂椰奶\n1/2 杯\n水\n1 茶匙\n粗盐\n1/4 茶匙\n现磨黑胡椒\n1(5 盎司)袋\n小菠菜(约 5 杯装)\n用 1 个中等酸橙榨汁(约 2 汤匙)\n米饭,供食用(可选)']
第一个元素是 1 汤匙\n植物油或椰子油,第二个是 1 汤匙\n去皮切碎的新鲜生姜(1 英寸)
因此,您可以理解各个元素由 \n 分隔,并且各个元素也包含 \n。所以我很困惑,如何制作一个没有 \n 的单个成分项目的列表,比如:
['1 汤匙蔬菜或椰子油,1 汤匙去皮切碎的新鲜生姜(1 英寸),2 瓣大蒜,切碎,3 汤匙纯素泰式红咖喱酱,例如 Thai Kitchen,1 份的果汁中等酸橙(约 2 汤匙),米饭,供食用(可选)']
对于您可以看到的列表,没有特定的模式,例如如果我们可以抓住 \n 只是在任何整数之前,因为 \n 在熟米饭之前存在,用于服务(可选)。 如果我们替换所有的 \n 那么所有出现的地方都将被替换。我需要清除单个成分内部出现的 \n 事件,并且两种成分之间的 \n 分隔符也需要替换为 ,正如我在上面显示的预期 o/p 一样。
实际输出:
['1 汤匙\n植物油或椰子油\n1 汤匙\n新鲜生姜去皮切碎(1 英寸)\n2 瓣\n大蒜,切碎\n3 汤匙\n纯素泰式红咖喱酱,例如 Thai Kitchen \n2\n中等红薯(总共约 1 磅),去皮并切成 1/2 英寸的方块\n1(15 盎司)罐头\鹰嘴豆,沥干并冲洗干净\n1(13 到 14 盎司)罐头\n满- 高脂椰奶\n1/2 杯\n水\n1 茶匙\n粗盐\n1/4 茶匙\n现磨黑胡椒\n1(5 盎司)袋\n小菠菜(约 5 杯装)\n用 1 个中等酸橙榨汁(约 2 汤匙)\n米饭,供食用(可选)']
预期 o/p:
['1 汤匙蔬菜或椰子油,1 汤匙去皮切碎的新鲜生姜(1 英寸),2 瓣大蒜,切碎,3 汤匙纯素泰式红咖喱酱,例如 Thai Kitchen,1 份的果汁中等酸橙(约 2 汤匙),米饭,供食用(可选)']
【问题讨论】:
-
网址是什么?你能分享你的代码吗?
标签: python-3.x selenium web-scraping beautifulsoup