【发布时间】:2015-09-03 16:40:38
【问题描述】:
我必须加载没有任何样式属性、没有链接图像以及所有非“纯文本”的 HTML 页面的正文。我想用 PHP 来做,并尝试了非常好的解决方案,但我还没有解决。我使用对我的脚本的 ajax 调用加载 html 页面,然后使用正则表达式获取我想要清除的正文。你能帮助我吗?这是ajax调用:
$.ajax({
type: "GET"
url: "core/proxy.php?url="+cerca,
success: function(data){
var body = data.replace(/^[\S\s]*<body[^>]*?>/i, "")
.replace(/<\/body[\S\s]*$/i, "");
$("div#risultato").html(body);
},
error: function(){
alert("failed");
}
});
});
【问题讨论】:
-
向我们展示您尝试过的 PHP 解决方案如何?
-
按照你的描述做一般来说是一个复杂的问题;这不仅仅是一个简单的正则表达式。
-
我忘了html页面都是这些链接的文章:dlib.org/dlib/november14/11contents.html,rivista-statistica.unibo.it/issue/view/467。对于我搜索的所有其他网站,我必须显示正文内容。
标签: javascript php html ajax scrape