【发布时间】:2013-06-14 16:48:45
【问题描述】:
我正在抓取的网站:link
我要解析的标签:START - <p id="p-1">, FINISH - </p>
我的代码:
from urllib import urlopen
from bs4 import BeautifulSoup
import re
html = urlopen('http://mansci.journal.informs.org/gca?gca=mansci%3B6%2F2%2F141&gca=mansci%3B6%2F2%2F149&gca=mansci%3B6%2F2%2F165&gca=mansci%3B6%2F2%2F172&gca=mansci%3B6%2F2%2F187&gca=mansci%3B6%2F2%2F191&gca=mansci%3B6%2F2%2F197&gca=mansci%3B6%2F2%2F205&gca=mansci%3B6%2F2%2F215&submit=Get+All+Checked+Abstracts').read()
a = re.compile('<p id="p-1">(.*)</p>')
b = re.findall(a,html)
我遇到的问题是我的代码是一行一行的,我不知道如何解析整个段落。
【问题讨论】:
-
我已经修复了格式,并删除了有关间距的注释。
-
谢谢!第一次在这个网站上。只是学习如何编码!
标签: python python-2.7 web-scraping