【发布时间】:2015-04-12 16:34:32
【问题描述】:
我很好奇为什么 urllib2 模块返回带有空正文的 html。我确定我在那里放了一个正确的网址。即使我尝试使用 chrome 查看源代码,该页面也不会显示整个 html 代码。这是其中一页:http://www.firmy.cz/Velkoobchod-a-vyroba/Vyrobci-papiroveho-a-polygrafickeho-zbozi/Nakladatele-a-vydavatele?geo=0
如何解决这个问题?
这是我的一段代码,但我认为问题出在其他地方,根据 chrome 显示相同的代码。
def getSoup(url):
req = urllib2.Request(url)
response = urllib2.urlopen(req)
page = response.read()
soup = BeautifulSoup(page, 'lxml')
return soup
此代码返回:
...
..
.. some head etc...
<meta content="!" name="fragment"/>
</head>
<body class="root" id="root"></body>
</html>
如您所见,主体是空的。
【问题讨论】:
-
任何代码?你在做什么?
-
我现在已经在我的问题中加入了一个代码,但我认为问题出在其他地方。正如我所写,即使是 Chrome 也不会显示完整的源代码。
-
有趣,我似乎得到了一些code。网站本身的body标签对我来说也没有任何东西,可能是一些JS在做魔术。
标签: python html google-chrome request urllib2