【发布时间】:2011-12-29 22:20:37
【问题描述】:
构建一个将网页上的 html 表格抓取到变量中的函数的最佳方法是什么。
我希望能够向它传递一些唯一标识符(例如表 ID 或其他东西),它会将所有数据返回到类似 DataTable 的东西中。
【问题讨论】:
-
这并不像我想的那么简单,所以我想到了:mdukehall.wordpress.com/2011/10/12/…
-
@Michael 没有任何方法是万无一失的——即使使用第三方工具也是如此。 HTML 在关闭标签方面有非常宽松的标准,这意味着无法保证您的“XML”树将正确形成,因此大量的抓取可能很乏味并且容易试错。有时最好的方法是简单地在页面上的数据附近或附近找到一个静态元素,并围绕它运行你的逻辑。拆分、解析等,直到得到结果。