【问题标题】:Python: how to make parallelize processingPython:如何进行并行处理
【发布时间】:2016-10-19 13:07:06
【问题描述】:

我需要将任务划分为 8 个进程。 我使用multiprocessing 来做到这一点。 我试着描述我的任务: 我有数据框,并且有带有网址的列。有些网址有验证码,我尝试使用其他文件中的代理从每个网址获取页面。 这需要很多时间,我想把它分开。我想用一个代理打开第一个网址,用另一个代理打开第二个网址等。我不能使用mapzip,因为代理列表的长度更小。 网址看起来像

['https://www.avito.ru/moskva/avtomobili/bmw_x5_2016_840834845', 'https://www.avito.ru/moskva/avtomobili/bmw_1_seriya_2016_855898883', 'https://www.avito.ru/moskva/avtomobili/bmw_3_seriya_2016_853351780', 'https://www.avito.ru/moskva/avtomobili/bmw_3_seriya_2016_856641142', 'https://www.avito.ru/moskva/avtomobili/bmw_3_seriya_2016_856641140', 'https://www.avito.ru/moskva/avtomobili/bmw_3_seriya_2016_853351780', 'https://www.avito.ru/moskva/avtomobili/bmw_3_seriya_2016_856641134', 'https://www.avito.ru/moskva/avtomobili/bmw_3_seriya_2016_856641141']

代理看起来像

['http://203.223.143.51:8080', 'http://77.123.18.56:81', 'http://203.146.189.61:80', 'http://113.185.19.130:80', 'http://212.235.226.133:3128', 'http://5.39.89.84:8080']

我的代码:

def get_page(url):
m = re.search(r'avito.ru\/[a-z]+\/avtomobili\/[a-z0-9_]+$', url)
if m is not None:
    url = 'https://www.' + url
    print url
    proxy = pd.read_excel('proxies.xlsx')
    proxies = proxy.proxy.values.tolist()
    for i, proxy in enumerate(proxies):
        print "Trying HTTP proxy %s" % proxy
        try:
            result = urllib.urlopen(url, proxies={'http': proxy}).read()
            if 'Мы обнаружили, что запросы, поступающие с вашего IP-адреса, похожи на автоматические' in result:
                raise Exception
            else:
                page = page.read()
                soup = BeautifulSoup(page, 'html.parser')
                price = soup.find('span', itemprop="price")
                print price
        except:
            print "Trying next proxy %s in 10 seconds" % proxy
            time.sleep(10)

if __name__ == '__main__':
    pool = Pool(processes=8)
    pool.map(get_page, urls)

我的代码需要 8 个网址并尝试使用一个代理打开它。如何更改算法以使用 8 个不同的代理打开 8 个 URL?

【问题讨论】:

  • 您可能希望在此处使用多线程,因为您的 CPU 可能大部分时间都处于空闲状态。还。您可能想隐藏您的问题中的私人信息。

标签: python multithreading proxy multiprocessing


【解决方案1】:

类似的东西可能会有所帮助:

def get_page(url):
m = re.search(r'avito.ru\/[a-z]+\/avtomobili\/[a-z0-9_]+$', url)
if m is not None:
    url = 'https://www.' + url
    print url
    proxy = pd.read_excel('proxies.xlsx')
    proxies = proxy.proxy.values.tolist()
    for i, proxy in enumerate(proxies):
        thread.start_new_thread( run, (proxy,i ) )

def run(proxy,i):
    print "Trying HTTP proxy %s" % proxy
    try:
        result = urllib.urlopen(url, proxies={'http': proxy}).read()
        if 'Мы обнаружили, что запросы, поступающие с вашего IP-адреса, похожи на автоматические' in result:
                raise Exception
        else:
            page = page.read()
            soup = BeautifulSoup(page, 'html.parser')
            price = soup.find('span', itemprop="price")
            print price
    except:
        print "Trying next proxy %s in 10 seconds" % proxy
            time.sleep(10)

if __name__ == '__main__':
    pool = Pool(processes=8)
    pool.map(get_page, urls)

【讨论】:

  • 这很奇怪,但run() 中的url 没有定义
  • 它只需要 4 个 url(不是 8 个)并尝试打开它。它无法打开并退出。它不会在 urls 列表中出现
最近更新 更多