【问题标题】:Scraping text from HTML5 website using Python使用 Python 从 HTML5 网站中抓取文本
【发布时间】:2014-09-17 00:05:05
【问题描述】:

我需要使用 python 从网站上抓取文本。我已经安装了 BeautifulSoup 4、HTML Requests 和 NLTK,但我似乎不知道如何抓取。

我真的需要一个简单的 sn-p 代码,我可以插入任何 URL 并获取纯文本。我正在尝试从this website获取它

【问题讨论】:

  • 考虑提出更多信息和代码。

标签: python html screen-scraping


【解决方案1】:

BeautifulSoup 可以轻松提取页面中的所有文本。以下是提取<body>...</body> 部分内的文本的示例。

import urllib
from bs4 import BeautifulSoup
from contextlib import closing

url = 'https://developer.valvesoftware.com/wiki/Hammer_Selection_Tool'
with closing(urllib.urlopen(url)) as h:
    soup = BeautifulSoup(h.read())

print soup.body.get_text()

【讨论】:

    猜你喜欢
    • 2016-04-06
    • 2017-01-05
    • 1970-01-01
    • 1970-01-01
    • 2018-11-12
    • 1970-01-01
    • 2020-09-28
    • 2021-04-23
    • 2018-09-01
    相关资源
    最近更新 更多