【发布时间】:2015-06-03 15:17:57
【问题描述】:
我对 Python 很陌生,但我知道它有多么强大。我想用它尝试一些东西,但我几乎是在自学,所以请随意用最基本的术语来解释。 :/
我尝试使用鹅提取工具从 URL 中提取一些文本,效果很好。我很简单……
from goose import Goose
url = 'http://example.com'
g = Goose()
article = g.extract(url=url)
article.cleaned_text
我想复制这个过程,以便从数百个 URL 中提取文本。有没有办法设置它,这样我就可以输入一个 URL 列表,提取文本,然后(我的猜测)我可以将它们连接在一起用于 NLP 或我想做的任何其他事情?在此先感谢...
【问题讨论】:
-
1.首先将所需的 URL 保存在文本文件中 2. 读取文件和 python 脚本循环遍历 url 并提取文本。 3. 通过写入文件来转储所有内容(每行一个文档) 4. 完成所有 NLP 任务。
-
@pbu 您可能想将其发布为答案,这似乎是一个有效的解决方案。
标签: python url text-extraction