【发布时间】:2010-10-16 20:52:41
【问题描述】:
我正在尝试一个关于页面排名的项目。
我想创建一个如下所示的索引(字典):
file1.html -> [[猫,吃,食物,喝,牛奶],[file2.html,file3.html]]
file2.html -> [[狗,吠,跑,走],[file1.html,file4.html]]
获取链接很容易 - 查找锚标记。
我的问题是 - 我如何获取文本? html 文件中的文本未包含在任何标签中,例如 <p>
提前感谢所有帮助
【问题讨论】: