【发布时间】:2018-11-15 03:43:15
【问题描述】:
这是我的问题:
对于 Excel 写作应用程序,我从 HTML 表中提取数据。 我有一个包含表格的网站,我可以浏览它并提取数据。
但是
由于该表仅显示 20 行,因此我只能提取前 20 行而不是整个表(哪些行号非常随机)。
请注意,每次向下滚动时,HTML 表都会将他的 td/ID 重置为 row0 到 row19(可能很常见,但我不是 HTML 专业人士 :D)
我不知道如何在没有重复行数据的情况下遍历整个表。
如果有人有想法,欢迎你!
编辑 1:
这是 HTML(我已将其过滤为只有 col1,因为我需要提取数据)
`https://jsfiddle.net/yfb429Lo/13/`
确实,表格右侧有一个滚动选项卡,如此处的屏幕截图所示:
当我在表格中向下滚动 2 次时,HTML 会自动更新为:
==> 第 2 行变成第 0 行,第 3 行变成第 1 行,...
我有大约 100 个表格要提取,但我无法提前知道表格的长度。
谢谢大家,
阿诺
【问题讨论】:
-
添加一些HTML和代码的细节
-
页面链接会很有帮助。当您说向下滚动时,您是指向下滚动页面还是指切换到具有更多表格数据的另一个页面/面板?例如向下滚动时,是保留原始表格数据还是替换为新数据?
标签: python selenium web-scraping html-table