【发布时间】:2017-08-14 10:14:02
【问题描述】:
所以我正在制作一个网页“爬虫”来解析网页,然后在网页中搜索一个词或一组词。这里出现了我的问题,我正在寻找的数据包含在解析的网页中(我使用特定的单词作为测试运行它)但它说它正在寻找的数据尚未找到。
from html.parser import HTMLParser
from urllib import *
class dataFinder(HTMLParser):
def open_webpage(self):
import urllib.request
request = urllib.request.Request('https://www.summet.com/dmsi/html/readingTheWeb.html')#Insert Webpage
response = urllib.request .urlopen(request)
web_page = response.read()
self.webpage_text = web_page.decode()
return self.webpage_text
def handle_data(self, data):
wordtofind = 'PaperBackSwap.com'
if data == wordtofind:
print('Match found:',data)
else:
print('No matches found')
p = dataFinder()
print(p.open_webpage())
p.handle_data(p.webpage_text)
我已经使用 feed 方法在没有打开网页功能的情况下运行了程序,它可以工作并找到数据,但是现在它不工作了。
感谢您对解决此问题的任何帮助
【问题讨论】:
-
您打算从网站中提取的究竟是什么?来自 href 标签的链接?
-
我只是想从页面中查找文本,无论是在 href 标签中还是在 p 标签中
标签: python html parsing web-scraping python-requests