基于 PHP 网页的爬虫

【问题标题】：PHP web based scraper基于 PHP 网页的爬虫
【发布时间】：2012-11-24 06:24:42
【问题描述】：

我想做的是使用 PHP 来抓取我输入参数的网址的网站。

我想要完整的原始源代码..但这还不是全部..

我希望它然后保存到一个 html 页面中，并保存到 php 脚本的本地服务器上。

有一个简单的片段吗？或者有人可以轻松地为我编写代码吗？

例如

我要刮http://google.com

例如，mysite.com/scrape.php?url=http://google.com

我想让它把google的首页保存到http://mysite.com/scraped/google.com.html

【问题讨论】：

scrape 你的意思是download？
看看file_get_contents() 和file_put_contents() 的文档怎么样

标签： php html scrape

【解决方案1】：

这是一个脚本，它将指定 url 的内容保存到一个名为 scraped.html 的文件中：

if (isset($_GET['url'])):
   $contents = file_get_contents($_GET['url']);
   file_put_contents('scraped.html', $contents);
endif;

要在对file_get_contents() 的调用中使用网址，您必须在php.ini 文件中启用allow_url_fopen。

当然，这只会保存请求的 url 的实际来源，而不是任何其他资源，例如图像、脚本和样式表。

【讨论】：

猜你喜欢

如何检查是否从 iPhone 上的网页安装了应用程序 1970-01-01
ASP.NET 中的 SVN 与 Ankh 的日常使用基础知识 2025-11-21
Elmah 适用于 MVC，但不适用于 Web API 2025-11-21
PHP：使用 header() 更改引用者 2025-11-21
PHP Symfony2 错误映射与旧包 2025-11-21
用于 Dotnet 应用程序的 KubernetesClient 中的等效 Docker.DotNet AuthConfig 类 2025-11-21
Firefox iframe 中的 CSP 标头在具有动态内容的整个页面上工作 2025-11-21
用于排序导航属性的动态 LINQ 表达式 2025-11-21
产品价格的数据库设计取决于一天中的时间 2025-11-21
使用 Eclipse 测试 PhoneGap 应用程序时不断收到“发生网络错误” 2025-11-21

相关资源

回到网页顶部的JS代码下载 2022-12-26
67CMS简单php企业网站管理系统 v2.0下载 2023-01-18
PHP漏洞扫描软件源码 v1.0 beta下载 2022-12-28
HTML5 Canvas实现的彩色肥皂泡浮起动画效果源码下载 2023-02-19
HTML5 canvas实现的全屏酷炫星空背景动画特效源码下载 2022-12-21

最近更新更多

热门标签

Java Python linux javascript C# Mysql Docker 算法前端 SpringBoot Redis Vue spring .net 设计模式 .net core c++ kubernetes 数据库机器学习大数据数据结构微服务 js 人工智能 Go Android 面试程序员 JVM 云原生后端 ASP.net core 深度学习 CSS k8s git golang PHP devops Nginx Django React mybatis 架构多线程 Spring Boot 云计算 LeetCode 分布式