【发布时间】:2020-08-15 06:53:10
【问题描述】:
这个网站有关于库存和 我正在尝试从该站点中提取一些数据。 https://quickfs.net/company/AAPL:US
AAPL 是股票名称,可以更改。
页面看起来像一张大桌子:the columns are years and the rows are calculated values like: Return on Assets and Gross Margin
为此,我尝试遵循一些教程:
Introduction to Web Scraping (Python) - Lesson 02 (Scrape Tables)
Intro to Web Scraping with Python and Beautiful Soup
Web Scraping HTML Tables with Python
Web scraping with Python — A to Z Part A — Handling BeautifulSoup and avoiding blocks
我在导入包后一开始就卡住了:
from bs4 import BeautifulSoup as soup
from urllib.request import urlopen as uReq
这个函数从网页中检索数据:
def make_soup(url):
thepage=uReq(url)
soupdata=soup(thepage, "html.parser")
return(soupdata)
然后
soup=make_soup("https://quickfs.net/company/AAPL:US")
现在,当试图查看汤里的数据时
soup.text
输出只是这个,而不是网页中的所有数据:
'\n\n\n\n\n\n\n\n\n\n\n\nExport Fundamental Data U.S. and International Stocks - QuickFS.net\n\n\n\n\n\n \r\n Loading QuickFS...\r\n \n\n\n\n\n\n\n\n\n\n\n\n\n\n'
我认为这是特定网页的问题,但我不知道如何处理。
输入不同的 url,函数 make_soup(url) 有时会起作用。
请大家帮忙
【问题讨论】:
标签: python web-scraping beautifulsoup