【发布时间】:2016-10-17 16:45:10
【问题描述】:
我正在尝试通过抓取 Instagram 从 Instagram 获取一些信息。我在 twitter 上尝试过这段代码,它运行良好,但在 Instagram 上没有显示任何结果,这两个代码都可以在这里找到。
推特代码:
from bs4 import BeautifulSoup
from urllib2 import urlopen
theurl = "https://twitter.com/realmadrid"
thepage = urlopen(theurl)
soup = BeautifulSoup(thepage,"html.parser")
print(soup.find('div',{"class":"ProfileHeaderCard"}))
结果:完美给出。
Instagram 代码:
from bs4 import BeautifulSoup
from urllib2 import urlopen
theurl = "https://www.instagram.com/barackobama/"
thepage = urlopen(theurl)
soup = BeautifulSoup(thepage,"html.parser")
print(soup.find('div',{"class":"_bugdy"}))
结果:无
【问题讨论】:
-
如果你看源码,你会看到内容是动态加载的,所以没有
div._bugdy -
您需要使用 Selenium 进行此类报废。
标签: python twitter beautifulsoup instagram screen-scraping