【发布时间】:2020-08-13 22:31:36
【问题描述】:
我知道这会将页面源代码存储在变量HTML中。
Dim Client As New WebClient
URL = Console.Readline
HTML = Client.DownloadString(New Uri(URL))
但这样做并不能完全保存网站中的所有元素,例如某些 URL 链接和视频也无法看到。
如何将页面中的所有个页面元素放入字符串变量中?
谢谢
【问题讨论】:
-
您不能使用 WebClient 或 HttpClient(或直接使用 WebRequest)下载由脚本生成/填充的页面内容。您需要使用一个WebBrowser 类(类,不是控件),导航到URL,使用
[WebBrowser].ReadyState != WebBrowserReadyState.Complete旁边的DocumentCompleted事件来验证Html Document 是否已经完全呈现,然后获取[WebBrowser].Document对象并使用它方法(GetElementById、GetElementsByTagName等)来提取特定 HtmlElements 的值。
标签: html vb.net web-scraping webclient