如何将IP地址转换为urllib的http答案

【问题标题】：how to convert IP address into http for urllib如何将IP地址转换为urllib的http
【发布时间】：2014-08-21 17:55:47
【问题描述】：

我正在寻找自己的个人项目来创建一个应用程序，我可以从我的浏览器所在的站点保存文档/文本/图像。我做了很多研究，得出的结论是，目前两种方法中的任何一种都是可行的：使用 cookie 或数据包嗅探器来识别 IP 地址（目前数据包嗅探器方法更相关）。

我想自动化应用程序，这样我就不必在浏览器上复制和粘贴 url 并使用 urllib 将其粘贴到脚本中。

对于我需要的流程或模块或库，有经验的网络程序员可以提供什么建议吗？

非常感谢乔纳森

【问题讨论】：

您可以根据需要使用urllib、BeautifulSoup、requests等python库制作应用程序来下载图像等。

标签： python url networking download packet

【解决方案1】：

如果您想在积极浏览时下载所有图像、文档和文本（考虑到大量带宽，这可能是个坏主意），那么您需要的不仅仅是 urllib2。我假设您不希望将所有 url 复制并粘贴到脚本中以下载所有内容，如果不是这种情况，一个简单的 urllib2 和 beautifulsoup 过滤器会让您感到惊奇。

但是，如果我的假设是正确的，那么您可能会想要研究硒。从那里您可以启动一个 selenium 窗口（默认为 Firefox），然后正常浏览。最好的选择是不断地轮询当前的 url，如果它不同，请识别您要下载的所有元素，然后使用 urllib2 下载它们。由于我不知道您要下载什么，因此我无法在这方面真正为您提供帮助。然而，这就是 selenium 中的样子：

from selenium import webdriver
from time import sleep

# Startup the web-browser
browser = webdriver.Firefox()
current_url = browser.current_url

while True:
    try:
        # If we have a url, identify and download your items
        if browser.current_url != current_url:
            # Download the stuff here
            current_url = browser.current_url
    # Triggered once you close the web-browser
    except:
        break
    # Sleep for half a second to avoid demolishing your machine from constant polling
    sleep(0.5)

我再次建议不要这样做，因为不断下载图像、文本和文档会占用大量空间。

【讨论】：

嗨，感谢您介绍 selenium！它是如此有趣的包裹，我现在很兴奋。只需包含一个完整的示例应用程序/项目，我可以在其中选择要从任何浏览器保存的页面，即 instapaper