【问题标题】:Google News scrapper谷歌新闻抓取工具
【发布时间】:2022-12-31 22:06:30
【问题描述】:

我正在尝试从谷歌获取新闻标题。到目前为止,我正在使用 GoogleNews API 并且我有以下代码:

from GoogleNews import GoogleNews
from newspaper import Article
import pandas as pd

googlenews = GoogleNews(start='01/01/2022', end='31/12/2022')
googlenews.search('Apple')
result = googlenews.result()
df = pd.DataFrame(result)
print(df.head())

for i in range(2,50):
    googlenews.getpage(i)
    result = googlenews.result()
    df = df.append(result)
    df = pd.DataFrame(df)

df = df.drop_duplicates(subset=['title'], keep='last')
df.reset_index(drop=True, inplace=True)
print(df)

它有效,代码给了我大约 234 条新闻。但是,我想知道是否有办法获得更多新闻,例如 400。

我尝试了其他一些库,但它们最多只返回 100 个搜索结果。所以我想知道是否有其他 API 或获取更多结果的方法。

【问题讨论】:

    标签: python web-scraping


    【解决方案1】:

    使用pagination

    默认返回首页结果,不需要再次获取首页,否则可能会出现重复结果。要获取搜索结果的其他页面:

    googlenews.get_page(2)
    

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 2015-01-27
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2022-07-12
      • 2018-04-03
      相关资源
      最近更新 更多