如何获取网页的源代码或文本内容 [关闭]答案

【问题标题】：How to get a webpage's source code or text contents [closed]如何获取网页的源代码或文本内容 [关闭]
【发布时间】：2014-02-22 08:52:28
【问题描述】：

我熟悉 Javascript、HTML、VBScript、PHP 和 MySQL。我正在尝试创建自己的网页更改监控程序供个人使用（与工作相关）。我需要一个可以学习/分析的示例代码，它可以访问网站并复制所有文本内容或源代码。然后我会将复制的数据保存到 MySQL 数据库或任何地方，然后我希望能够再次获取该网页的内容并将其与我存储到 MySQL 的内容进行比较，这样我就可以定期检查是否有更改我们一直在监控的网站。

我更喜欢自己构建，我更喜欢用 Javascript 来做，我不想开始学习 JQuery，这可行吗？我也知道 innerhtml，但那是针对您拥有或有权访问的网页。

我已经搜索这个答案一段时间了，但没有一个想法可以开始，所以我还没有编写任何代码来做到这一点。

杰

【问题讨论】：

您可以使用 PHP file_get_content 函数检索 URL 的内容。然后存储它。但是，如果网站有一些 ajax 内容，您将无法获得它们。

标签： javascript html mysql

【解决方案1】：

据我所知，这在 JavaScript 中是不可能的。然而你可以在 PHP 中做到这一点，它可以获得大多数 HTML、JS 和 CSS 文件的源代码，但当然不是 PHP 源代码，只有生成的 HTML 代码。您首先使用“file_get_contents”获取页面内容并将其保存到 MySQL 数据库。那么如果你掌握 PHP 的说法是正确的，你可以自己写代码来比较两个源代码，这很容易。

示例代码：

<?php
$source = file_get_contents('http://example.com');
$con=mysqli_connect("example.com","peter","abc123","my_db");
// Check connection
if (mysqli_connect_errno())
  {
  echo "Failed to connect to MySQL: " . mysqli_connect_error();
  }

$sql="INSERT INTO Persons (WebPage1Source)
VALUES
('$source')";

if (!mysqli_query($con,$sql))
  {
  die('Error: ' . mysqli_error($con));
  }
echo "1 record added";

mysqli_close($con);
?>

【讨论】：

谢谢，但不，我还没有掌握 PHP，我只是熟悉它，这就是我努力的原因。不过，我能够了解 file_get_contents 和 strip_tags，谢谢大家的帮助:)