【发布时间】:2018-09-22 09:35:54
【问题描述】:
我正在从 csv 抓取 url 列表,并从每个 url 中提取数据帧信息并将其导出到 csv。当它到达一个没有任何信息的页面时它会停止。我想从第一个文件中删除我已经根据从第二个文件收集的许可证号抓取的网址(它们包含许可证号)。我可以通过使用帮助列在 excel 中轻松做到这一点,但不知道如何使用 pandas 来做到这一点。
例如: 我想根据 file2 中的 Lic # 删除 file1 中的前 2 行(url)。
File1(no headers)
www.1234.com
www.1235.com
www.1236.com
File2(LIC# is the header)
1234
1235
new urls (expected output back into File1)
www.1236
我已经查看了这里的许多示例,但无法理解它。
感谢任何 cmets 和/或建议。
【问题讨论】:
-
你能展示数据集和预期输出的玩具示例吗?
-
我在最初的问题中提供了它们,但更新了措辞以反映您的要求。我相信。