【发布时间】:2014-10-21 15:23:51
【问题描述】:
所以我正在制作一个脚本来根据用户提交的 URL 检查页面的关键字密度,并且我一直在使用 strip_tags 但它似乎并没有完全从实际单词中过滤 javascript 和其他代码网站上的内容。有没有更好的方法在页面上的代码内容和实际单词内容之间进行过滤?
if(isset($_POST['url'])){
$url = $_POST['url'];
$str = strip_tags(file_get_contents($url));
$words = str_word_count(strtolower($str),1);
$word_count = array_count_values($words);
foreach ($word_count as $key=>$val) {
$density = ($val/count($words))*100;
echo "$key - COUNT: $val, DENSITY: ".number_format($density,2)."%<br/>\n";
}
}
【问题讨论】:
-
什么不是剥离?
-
gettime - COUNT: 1, DENSITY: 0.06% event - COUNT: 1, DENSITY: 0.06% js' - COUNT: 1, DENSITY: 0.06% var - COUNT: 2, DENSITY: 0.12% f - 计数:3,密度:0.18% getelementsbytagname - 计数:1,密度:0.06%
-
^一些不应该出现的东西的例子
-
这些不是标签,它们是标签之间的 Javascript 的一部分。
-
我怎样才能从我的字符串中去除 javascript?
标签: javascript php jquery html keyword