【发布时间】:2017-05-17 02:56:53
【问题描述】:
我在本地机器上保存了静态 HTML 页面。我尝试使用简单的文件打开和 BeautifulSoup。打开文件时,由于 unicode 错误,它不会读取整个 html 文件,而 BeautifulSoup 它适用于实时网站。
#with beautifulSoup
from bs4 import BeautifulSoup
import urllib.request
url="Stack Overflow.html"
page = urllib.request.urlopen(url)
soup = BeautifulSoup(page.read())
universities=soup.find_all('a',class_='institution')
for university in universities:
print(university['href']+","+university.string)
#Simple file read
with open('Stack Overflow.html', encoding='utf-8') as f:
for line in f:
print(repr(line))
阅读 HTML 后,我希望从 ul 和 li 中提取没有任何属性的数据。欢迎任何建议。
【问题讨论】:
-
您遇到了哪些错误?您究竟想从页面中提取什么?发布 HTML 内容(相关部分)和您想要的输出。
-
问题已解决,感谢大家的帮助!!
标签: python beautifulsoup python-3.5 data-extraction static-html