寻找自动从 CMS 中抓取值以构建报告的最佳方法答案

【问题标题】：Looking for the best way to automate scraping values off of a CMS to build reports寻找自动从 CMS 中抓取值以构建报告的最佳方法
【发布时间】：2021-01-29 05:28:23
【问题描述】：

第一次发帖，请放轻松:)

情况是，我正试图从基于网络的（客户）CMS（客户管理系统）中抓取信息，该系统上有销售信息，然后将这些值输入到 Excel 或 Google 表格中以最终构建报告，从而节省手动翻阅所有错误的时间/错误。

我记得曾经使用过一种解决方案（多个工具），它基本上会遍历页面并从这些页面上定义的字段中获取值，然后将这些信息放入工作表上的列中，然后我们将手动操作。我很确定它是基于 python 的，并且（我认为）使用 tampermonkey 扩展来获取有关 chrome 的开发/调试器版本的信息。

这个过程看起来像这样：

已登录 CMS -> 执行工具/脚本，然后在新窗口中自动打开订单
然后它会通过该顺序并从特定字段中获取值，然后将这些值复制到工作表中
然后它会关闭窗口并继续执行指定范围内的下一个订单
一旦完成指定（日期）范围，列将类似于销售人员/订单号/销售金额/附件金额等 - 然后手动操作，无需进一步自动化（除了工作表中的公式）

任何人对如何完成此任务有任何想法或任何人都知道针对此特定类型任务的任何指南？尝试尽可能自动化 - 提前致谢。

【问题讨论】：

什么是 CMS？也许它有一个您可以使用的文档化 API，这比网络抓取更可取。
@PhilippNagel - 这是一个自定义 CMS，遗憾的是没有可用的文档
@Calculuswhiz - 在这种情况下，CMS 是客户管理系统

标签： python excel google-sheets tampermonkey

【解决方案1】：

Python 应该是一个不错的选择，因为它为您提供了许多不同的工具。根据 CMS 的功能，您可以选择不同的包。

简单的 HTML 抓取

对于静态 HTML 内容的简单抓取，scrapy 或 Beautiful Soup 就足够了。

包括可执行内容的抓取

对于这些情况，您可以使用Selenium，您可以将其与 Beautiful Soup 结合使用。更多详情请见this related question和this one。

【讨论】：

谢谢，这会让我走上正轨，Beautiful Soup 是一个很好的开始。