【发布时间】:2011-03-08 23:15:02
【问题描述】:
我想使用 PHP 从一个大型 HTML 页面中提取超过 100 个单词的文本块。文本是否包含在<p>...</p> 中并不重要。我只关心构成连贯文本块的单词数量,因此 HTML 段落之外的文本也应考虑在内。
如何做到这一点?
【问题讨论】:
标签: php html html-content-extraction
我想使用 PHP 从一个大型 HTML 页面中提取超过 100 个单词的文本块。文本是否包含在<p>...</p> 中并不重要。我只关心构成连贯文本块的单词数量,因此 HTML 段落之外的文本也应考虑在内。
如何做到这一点?
【问题讨论】:
标签: php html html-content-extraction
我使用 phpQuery。你熟悉 jQuery 吗?它们共享相同的语法。您可能会担心安装一个新库,但相信我,这个库非常值得额外开销
然后您可以像这样访问它:
foreach($doc->find('p') as $element){
$element = pq($element);
echo str_word_count($element->text());
}
【讨论】:
foreach($html->find('p') as $element){
echo str_word_count($element->src);
}
【讨论】:
<p>...</p>中不包含的文本怎么办?