关于网页抓取 - 使用 urllib（也许还有 beautifulsoup）答案

【问题标题】：regarding web scraping - using urllib (maybe also beautifulsoup)关于网页抓取 - 使用 urllib（也许还有 beautifulsoup）
【发布时间】：2013-06-14 16:48:45
【问题描述】：

我正在抓取的网站：link

我要解析的标签：START - <p id="p-1">, FINISH - </p>

我的代码：

from urllib import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('http://mansci.journal.informs.org/gca?gca=mansci%3B6%2F2%2F141&gca=mansci%3B6%2F2%2F149&gca=mansci%3B6%2F2%2F165&gca=mansci%3B6%2F2%2F172&gca=mansci%3B6%2F2%2F187&gca=mansci%3B6%2F2%2F191&gca=mansci%3B6%2F2%2F197&gca=mansci%3B6%2F2%2F205&gca=mansci%3B6%2F2%2F215&submit=Get+All+Checked+Abstracts').read()

a = re.compile('<p id="p-1">(.*)</p>')
b = re.findall(a,html)

我遇到的问题是我的代码是一行一行的，我不知道如何解析整个段落。

【问题讨论】：

我已经修复了格式，并删除了有关间距的注释。
谢谢！第一次在这个网站上。只是学习如何编码！

标签： python python-2.7 web-scraping

【解决方案1】：

使用beautifulsoup，然后如下：

from urllib2 import urlopen
from bs4 import BeautifulSoup

soup = BeautifulSoup(urlopen(your_url).read())
print soup.find('p', {'id': 'p-1'}).text

给...

测量的可能性并不一定会导致为决策提供相关信息商业。这可以通过参考会计方法，特别是利润计算来证明。会计流程已经正式化到歪曲财务结果和地位的程度；的概率资源将被有效地使用，并且利益方之间的公平将大大减少缺乏照顾在重要概念的定义和同时接受直接具有相反的理由和后果。随着信息处理速度的提高和计算的改进发展，相应的有必要努力在操作相关的术语中重新定义，或加强对此类的定义利润等关键概念，资金成本。会计和辅助计算的发展历史说明了许可的后果一个衡量和沟通的系统变得制度化。提高相关性的一些建议会计学和类似的信息。

【讨论】：

非常有帮助。我会看看我能从这里做什么