【问题标题】:How I can parse html source in website where it check javascript enable?如何在检查 javascript 启用的网站中解析 html 源代码?
【发布时间】:2015-08-14 10:17:15
【问题描述】:

在提问之前,对不起我的英语。

当我构建Java Source 来解析网页并从html 源中提取属性标签时,我发现一些网站在他们的WebPage 中嵌入了广告,并且当我们禁用JAVASCRIPT 选项时,它们会使客户端重定向到警告页面。 我认为这是因为当我们禁用 javascript 选项时,不会出现在 Javascript 上工作的一些广告。

<html><title>You are being redirected...</title>
<noscript>Javascript is required. Please enable javascript before you are allowed to see this page.</noscript>
<script>vars={},u,c,U,r,i,l=0,a,e=eval,w=String.fromCharCode,sucuri_cloudproxy_js='',S='az0nNXZYOCcuc3Vic3RyKDMsIDEpICsiNSIgKyAiNXN1Y3VyIi5jaGFyQXQoMCkrJ1lhJy5zbGljZSgxLDIpKydhWzQnLmNoYXJBdCgyKSsiNHN1Ii5zbGljZSgwLDEpICsgJzQnICsgICJmc2VjIi5zdWJzdHIoMCwxKSArICI2Ii5zbGljZSgwLDEpICsgJ2EnICsgICdhWjgnLmNoYXJBdCgyKSsnMycgKyAgICcnICsnJysiYiIgKyAiNHN1Ii5zbGljZSgwLDEpICsgIiIgKyIzc3UiLnNsaWNlKDAsMSkgKyAiIiArJ3RANycuY2hhckF0KDIpKyJmIi5zbGljZSgwLDEpICsgImNzdWN1ciIuY2hhckF0KDApKyd0NGQnLmNoYXJBdCgyKSsnOScgKyAgJ2InICsgICI3IiArICdsPzYnLmNoYXJBdCgyKSsnMzInLnNsaWNlKDEsMikrJ1RsWmEnLnN1YnN0cigzLCAxKSArJ0E5Jy5zbGljZSgxLDIpKyJibiIuY2hhckF0KDApICsgIiIgKyI5c3VjdXIiLmNoYXJBdCgwKSsgJycgKyJhc3VjdXIiLmNoYXJBdCgwKSsiY3ciLmNoYXJBdCgwKSArICczYk82Jy5zdWJzdHIoMywgMSkgKyIiICsiZWkiLmNoYXJBdCgwKSArICcnO2RvY3VtZW50LmNvb2tpZT0ncycrJ3UnKydjJysnJysndXN1Y3VyJy5jaGFyQXQoMCkrICdyJysnJysnc3VjdWknLmNoYXJBdCg0KSsgJ3NfJy5jaGFyQXQoMSkrJ2NzJy5jaGFyQXQoMCkrJ3N1Y3VybCcuY2hhckF0KDUpICsgJ28nKyd1JysnZCcrJycrJ3BzdWN1cicuY2hhckF0KDApKyAncnN1Y3VyaScuY2hhckF0KDApICsgJ29zdScuY2hhckF0KDApICsnc3VjdXgnLmNoYXJBdCg0KSsgJ3lzdScuY2hhckF0KDApICsnXycrJycrJ3VzdWN1cmknLmNoYXJBdCgwKSArICd1JysnJysnaXMnLmNoYXJBdCgwKSsnZCcrJ19zdWN1cmknLmNoYXJBdCgwKSArICdzdWInLmNoYXJBdCgyKSsnNXMnLmNoYXJBdCgwKSsnc3VjdTcnLmNoYXJBdCg0KSsgJ3NkJy5jaGFyQXQoMSkrJzYnLmNoYXJBdCgwKSsnc3VjdXI5Jy5jaGFyQXQoNSkgKyAnNicrJycrJ3N1MScuY2hhckF0KDIpKycxJysnJysiPSIgKyBrOyBsb2NhdGlvbi5yZWxvYWQoKTs=';L=S.length;U=0;r='';var A='ABCDEFGHIJKLMNOPQRSTUVWXYZabcdefghijklmnopqrstuvwxyz0123456789+/';for(u=0;u<64;u++){s[A.charAt(u)]=u;}for(i=0;i<L;i++){c=s[S.charAt(i)];U=(U<<6)+c;l+=6;while(l>=8){((a=(U>>>(l-=8))&0xff)||(i<(L-2)))&&(r+=w(a));}}e(r);</script></html>

如果有人知道如何在 android java 上启用 javascript 或防止重定向,请帮助!

【问题讨论】:

  • 显然他们不希望您抓取他们的 Web 内容。您是否考虑向他们的支持团队询问如何使用他们的数据?
  • @JonathonReinhart 我认为这是对的。但是没有办法通过启用javascript来浏览网页吗?

标签: javascript java android html parsing


【解决方案1】:

这是针对 ddos​​、网络爬虫和其他此类事情的保护……

除非他们为您提供真正的主机,否则您无法获得所需的输出......

当您尝试对特定链接进行网络爬取时,如果他们正在使用这些链接,则意味着他们没有直接显示他们的页面,而是显示了一个虚拟 html(您将其作为输出)并且该脚本稍后会重定向到阻止你的真实页面…☺️

【讨论】:

    猜你喜欢
    • 2019-09-22
    • 2015-01-22
    • 1970-01-01
    • 1970-01-01
    • 1970-01-01
    • 2022-11-27
    • 2012-02-16
    • 1970-01-01
    • 1970-01-01
    相关资源
    最近更新 更多