【问题标题】:regarding web scraping - using urllib (maybe also beautifulsoup)关于网页抓取 - 使用 urllib(也许还有 beautifulsoup)
【发布时间】:2013-06-14 16:48:45
【问题描述】:

我正在抓取的网站:link

我要解析的标签:START - <p id="p-1">, FINISH - </p>

我的代码:

from urllib import urlopen
from bs4 import BeautifulSoup
import re

html = urlopen('http://mansci.journal.informs.org/gca?gca=mansci%3B6%2F2%2F141&gca=mansci%3B6%2F2%2F149&gca=mansci%3B6%2F2%2F165&gca=mansci%3B6%2F2%2F172&gca=mansci%3B6%2F2%2F187&gca=mansci%3B6%2F2%2F191&gca=mansci%3B6%2F2%2F197&gca=mansci%3B6%2F2%2F205&gca=mansci%3B6%2F2%2F215&submit=Get+All+Checked+Abstracts').read()

a = re.compile('<p id="p-1">(.*)</p>')
b = re.findall(a,html)

我遇到的问题是我的代码是一行一行的,我不知道如何解析整个段落。

【问题讨论】:

  • 我已经修复了格式,并删除了有关间距的注释。
  • 谢谢!第一次在这个网站上。只是学习如何编码!

标签: python python-2.7 web-scraping


【解决方案1】:

使用beautifulsoup,然后如下:

from urllib2 import urlopen
from bs4 import BeautifulSoup

soup = BeautifulSoup(urlopen(your_url).read())
print soup.find('p', {'id': 'p-1'}).text

给...

测量的可能性并不一定会导致 为决策提供相关信息 商业。这可以通过参考会计方法,特别是利润计算来证明。 会计流程 已经正式化到歪曲财务结果和地位的程度;的概率 资源 将被有效地使用,并且利益方之间的公平将大大减少 缺乏照顾 在重要概念的定义和同时接受直接具有 相反的理由 和后果。随着信息处理速度的提高和计算的改进 发展,相应的 有必要努力在操作相关的术语中重新定义,或加强对此类的定义 利润等关键概念, 资金成本。会计和辅助计算的发展历史说明了 许可的后果 一个衡量和沟通的系统变得制度化。提高相关性的一些建议 会计学 和类似的信息。

【讨论】:

  • 非常有帮助。我会看看我能从这里做什么
猜你喜欢
  • 2022-06-13
  • 2016-06-19
  • 2018-02-07
  • 2018-02-06
  • 2020-09-17
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
相关资源
最近更新 更多