【问题标题】:Unable to scrape specific URL无法抓取特定 URL
【发布时间】:2017-09-06 06:10:56
【问题描述】:

我有一个 Kodi 插件并使用 PHP 来抓取许多不同的内容来源。我最近偶然发现:

http://m.ddizi1.com/izle/60108/dolunay-10-bolum-hd.htm

我浏览到 iframe 并得到:

http://trdizi.tv/player/oynat/2b152084a9c67ee35fdf5cab208157c7

通过嵌入式链接(在 m.ddizi1.com 上)完美地运行流式传输,但是如果您直接通过浏览器运行,什么都没有出现?我试图检查用户代理、推荐人,但没有运气。

这个来源也有同样的故事:

https://www.videoseyredin.net/diziler/yabanci/shooter-2-sezon-3-bolum-izle.html

我可以抓取 .json 播放列表:

https://www.videoseyredin.net/playlist/179781.json

但是,当尝试直接访问链接以检索 m3u8 和/或 mp4 文件时,不喜欢......

有什么建议吗?这两个来源我都没有运气......

感谢您的帮助:)

【问题讨论】:

  • 如果你可以分享你的一些代码,它可能有助于修复它。
  • 嗨,伙计,更了解如何访问这些链接。是什么阻止我通过浏览器访问它?我认为theres重定向?我可以操纵标头、用户代理等吗?

标签: php json xpath scrape m3u8


【解决方案1】:

看起来好像它正在检查它是否在 iframe 中播放,如果您使用

创建页面
<body><iframe src="http://trdizi.tv/player/oynat/2b152084a9c67ee35fdf5cab208157c7"></iframe></body>

它会播放。

这可以通过多种方法来完成,(来自How to identify if a webpage is being loaded inside an iframe or directly into the browser window?)一种是......

function inIframe () {
    try {
        return window.self !== window.top;
    } catch (e) {
        return true;
    }
}

更新:我设法让它工作的方式是......

  1. 把不播放的url (http://trdizi.tv/player/oynat/2b152084a9c67ee35fdf5cab208157c7) 进入浏览器(Chrome),这会显示“trdizi”然后正确 鼠标单击并检查。

  2. 当 html 出现时 - 鼠标右键单击 body 标签并“编辑为 HTML'

  3. 粘贴到<iframe src="http://trdizi.tv/player/oynat/2b152084a9c67ee35fdf5cab208157c7"> </iframe> (不记得我是如何退出 HTML 编辑的)

然后页面显示视频。 这还会向您显示加载页面的 html,因此您可能会看到它是如何阻止您的。

【讨论】:

  • 嗯,如果我这样做:
  • 嗯,使用 xpath 可能无法抓取它。
猜你喜欢
相关资源
最近更新 更多
热门标签