【发布时间】:2010-10-28 17:52:54
【问题描述】:
我正在尝试从以下页面提取数据:
这既方便又低效,将所有嵌入为 csv 文件的数据包含在标题中,设置为名为 gs_csv 的变量。
我如何提取这个? Document.body.innerhtml 跳过数据所在的标头,包含标头的替代方案是什么(或者更好的是,与 gs_csv 关联的值)?
(对不起,这一切都是新手,我一直在搜索大量文档,并尝试了很多,但到目前为止没有任何效果)。
感谢 Sinan(这主要是他转录成 Python 的解决方案)。
import win32com.client
import time
import os
import os.path
ie = Dispatch("InternetExplorer.Application")
ie.Visible=False
ie.Navigate("http://www.bmreports.com/servlet/com.logica.neta.bwp_PanBMDataServlet?param1=¶m2=¶m3=¶m4=¶m5=2009-04-22¶m6=37#")
time.sleep(20)
webpage=ie.document.body.innerHTML
s1=ie.document.scripts(1).text
s1=s1[s1.find("gs_csv")+8:-11]
scriptfilepath="c:\FO Share\bmreports\script.txt"
scriptfile = open(scriptfilepath, 'wb')
scriptfile.write(s1.replace('\n','\n'))
scriptfile.close()
ie.quit
【问题讨论】:
-
(链接省略,因为我是新手。)如果有帮助,这是一个python脚本,如下 import win32com.client import time import os import os.path ie = Dispatch("InternetExplorer .Application") ie.Visible=True ie.Navigate("bmreports.com/servlet/…) time.sleep(20) pages=ie.document.body #.innerHTML logfilepath="p:\\my documents\\Python\\webpagetmp. txt" log_file = open(logfilepath,"wb") log_file.write(webpage) log_file.close() 打印网页ie.quit
-
你能发出一个 http 请求,获取整个字符串,然后 grep 标头吗?