【问题标题】:Get all requested URL made from some page从某个页面获取所有请求的 URL
【发布时间】:2018-07-28 10:35:17
【问题描述】:

我想编写一个程序,它会在页面上打开连接,例如“https://en.wikipedia.org”,并将获取由“https://en.wikipedia.org”页面发起的所有请求的 URL,以从服务器加载内容。

我的意思是,当你打开chrome开发工具->网络时,你可以看到当前页面发起的从服务器加载内容的所有网络请求,我可以在我的java或C#程序中获取这些请求吗?以及如何?

我看了一些类似“jsoap”的工具,但似乎它们都只适用于源代码解析。

【问题讨论】:

    标签: java c# url request connection


    【解决方案1】:

    首先,您必须解析从服务器获取的整个 html 文件。 例如,如果您请求https://en.wikipedia.org/wiki/Main_Page,您应该从 HTML 文件中提取以下元素:

    • <a ... </a>-Tag 中所有引用的 HTML 站点
    • <meta-Tags 中的所有网站图标
    • 所有样式表和脚本都包含在文件的顶部和底部

    最后,您可以从站点 https://en.wikipedia.org/wiki/Main_Page 获得所有引用,尽管如此,您也可以将此机制视为 URL-Tree Walker。

    如果您对实现有任何疑问,请问我,因为我在上一个学生项目中做过类似的实现。

    【讨论】:

    • M.Fuchs,感谢您的回答,请显示一些实现代码片段?顺便说一句,“MyPage”使用 javascript 构建一些 ajax 请求,获取一些令牌并生成 url 等......页面源不包含 标记中的目标 url。
    猜你喜欢
    • 2023-03-06
    • 1970-01-01
    • 1970-01-01
    • 2012-10-03
    • 1970-01-01
    • 2013-06-12
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多