【发布时间】:2021-01-07 19:37:46
【问题描述】:
我的目标
我需要收集每个页面上的所有视频游戏名称、类型、描述、类型和发布年份。
total_games = 26,215
在下一页迭代中,“start=9951”更改为“after=WzUuNSwidHQ4NjcxMDM2IiwxMDAwMV0%3D”
我原本打算循环:pages = np.arange(1, total_games, 50),每页从 1 到 26215 每 50 个条目,但后来我偶然发现了这个问题。
HTML:下一个 »
如何取出部分 href 链接并添加到整个链接以循环?
结果:
"https://www.imdb.com/search/title/?title_type=video_game&sort=user_rating,desc&" + "after=WzUuNSwidHQ4NjcxMDM2IiwxMDAwMV0%3D" + "&ref_=adv_nxt" p>
粗体:这是我想在每个页面上抓取的 HREF 部分以迭代到下一页/这是在更改的 href 内。
任何解决方案将不胜感激!
【问题讨论】:
标签: python html css web-scraping beautifulsoup