【问题标题】:how to convert IP address into http for urllib如何将IP地址转换为urllib的http
【发布时间】:2014-08-21 17:55:47
【问题描述】:

我正在寻找自己的个人项目来创建一个应用程序,我可以从我的浏览器所在的站点保存文档/文本/图像。我做了很多研究,得出的结论是,目前两种方法中的任何一种都是可行的:使用 cookie 或数据包嗅探器来识别 IP 地址(目前数据包嗅探器方法更相关)。

我想自动化应用程序,这样我就不必在浏览器上复制和粘贴 url 并使用 urllib 将其粘贴到脚本中。

对于我需要的流程或模块或库,有经验的网络程序员可以提供什么建议吗?

非常感谢 乔纳森

【问题讨论】:

  • 您可以根据需要使用urllibBeautifulSouprequests等python库制作应用程序来下载图像等。

标签: python url networking download packet


【解决方案1】:

如果您想在积极浏览时下载所有图像、文档和文本(考虑到大量带宽,这可能是个坏主意),那么您需要的不仅仅是 urllib2。我假设您不希望将所有 url 复制并粘贴到脚本中以下载所有内容,如果不是这种情况,一个简单的 urllib2 和 beautifulsoup 过滤器会让您感到惊奇。

但是,如果我的假设是正确的,那么您可能会想要研究硒。从那里您可以启动一个 selenium 窗口(默认为 Firefox),然后正常浏览。最好的选择是不断地轮询当前的 url,如果它不同,请识别您要下载的所有元素,然后使用 urllib2 下载它们。由于我不知道您要下载什么,因此我无法在这方面真正为您提供帮助。然而,这就是 selenium 中的样子:

from selenium import webdriver
from time import sleep

# Startup the web-browser
browser = webdriver.Firefox()
current_url = browser.current_url

while True:
    try:
        # If we have a url, identify and download your items
        if browser.current_url != current_url:
            # Download the stuff here
            current_url = browser.current_url
    # Triggered once you close the web-browser
    except:
        break
    # Sleep for half a second to avoid demolishing your machine from constant polling
    sleep(0.5)

我再次建议不要这样做,因为不断下载图像、文本和文档会占用大量空间。

【讨论】:

  • 嗨,感谢您介绍 selenium!它是如此有趣的包裹,我现在很兴奋。只需包含一个完整的示例应用程序/项目,我可以在其中选择要从任何浏览器保存的页面,即 instapaper
猜你喜欢
  • 2013-05-09
  • 1970-01-01
  • 2014-03-13
  • 1970-01-01
  • 2017-08-23
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多