使用 beautifulsoup 抓取数据答案

【问题标题】：issue scraping data using beautifulsoup使用 beautifulsoup 抓取数据
【发布时间】：2019-11-27 03:25:45
【问题描述】：

我正在尝试从 yelp 中抓取数据，特别是纳什维尔餐厅的名称、地址、价格和评级。我正在使用美丽的汤。我有两个循环来收集数据。第二个循环正在工作，但第一个循环只适用于少数几个。我认为这与班级有关。我已经尝试了我能想到的每一个班级组合，但我仍然无法让它发挥作用。

这就是我要从这里抓取的地方 https://www.yelp.com/search?find_desc=Restaurants&find_loc=Nashville%2C+TN

this is the code on github

当我打印每个列表时，这些是这些结果（如果找不到任何东西，它会添加“无”）：第一行是商家名称，第二行：评分，第三行：价格，第四行：地址

【问题讨论】：

我不知道这些课程，但你可以尝试一件事。在你的 find 方法中传递类似这样的类：- main.find('div', class_="class-name")

标签： python web-scraping

【解决方案1】：

我注意到数据是由 javascript 提取的，所以我使用这个返回 json 的调用来获取数据。

它更快更干净。

import requests , os , csv
from urllib.parse import urljoin

def SaveAsCsv(list_of_rows):
  try:
    with open('data.csv', mode='a',  newline='', encoding='utf-8') as outfile:
      csv.writer(outfile).writerow(list_of_rows)
  except PermissionError:
    print("Please make sure data.csv is closed\n")


def Search():
  payload = {
        'find_desc': 'Restaurants',
        'find_loc': 'Nashville, TN',
        'start': 30, #if you want second page set start to 60 and so on
        'parent_request_id': 'f3d6966567be99d1',
        'request_origin': 'user'}
  res = requests.get(url, params=payload)
  if res.status_code == 200:
    return res.json()

def Extract():
  try:
    JsonObj          = Search()
    Data             = JsonObj['searchPageProps']['searchResultsProps']['searchResults']
    if Data is not None:
      for index , item in enumerate(Data,1):
        print('getting item {} out of {}'.format(index,len(Data)))
        if item.get('searchResultBusiness','') :
          name   = item['searchResultBusiness']['name']
          rating = item['searchResultBusiness']['rating']
          price  = item['searchResultBusiness']['priceRange']
          rank   = item['searchResultBusiness']['ranking']
          review = item['searchResultBusiness']['reviewCount']
          phone  = item['searchResultBusiness']['phone']
          busUrl = urljoin(url ,item['searchResultBusiness']['businessUrl'])
          SaveAsCsv([name,rating,price,rank,review,phone,busUrl])
  except Exception as e:
    print(e)


url = 'https://www.yelp.com/search/snippet'
if os.path.isfile('data.csv') and os.access('data.csv', os.R_OK):
  print("File data.csv Already exists \n")
else:
  SaveAsCsv([ 'name','rating','priceRange','ranking','reviewCount','phone','businessUrl'])
Extract()

【讨论】：