【发布时间】:2014-05-16 12:50:46
【问题描述】:
我很困惑!!!谁能告诉我问题出在哪里???这段代码过去可以正常工作,但从昨天开始就没有返回任何东西!我没有对其进行任何更改!有人知道吗???
import re
from re import sub
import time
import cookielib
from cookielib import CookieJar
import urllib2
from urllib2 import urlopen
import difflib
import requests
def twitParser():
try:
cj = CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
res=opener.open('https://twitter.com/haberturk')
html=res.read()
splitSource=re.findall(r'<p class="js-tweet-text tweet-text">(.*?)</p>',html)
print len(splitSource)
for item in splitSource:
aTweet = re.sub(r'<.*?>','',item)
print aTweet
except Exception, e:
print str(e)
print 'ERROR IN MAIN TRY'
twitParser()
【问题讨论】:
-
不要使用正则表达式解析 HTML。请参阅stackoverflow.com/questions/1732348/…(另外,Twitter 有一个 API。不要截屏。)
-
另外,你在 python 缩进中混合了制表符和空格,这是一个很大的问题,可能会导致错误。
-
这会导致问题吗????在哪里??????