【发布时间】:2019-01-09 16:39:45
【问题描述】:
例如在这个 url (https://edition.cnn.com/search/?q=%20news&size=10&from=5540&page=555)
在 html 文件中我可以找到这个链接(html 标签)
<div class="cnn-search__result-thumbnail">
<a href="https://www.cnn.com/2018/03/27/asia/north-korea-kim-jong-un-china-visit/index.html">
<img src="./Search CNN - Videos, Pictures, and News -
CNN.com_files/180328104116china-xi-kim-story-body.jpg">
</a>
但在这段代码中
cnn_paper = newspaper.build(url, memoize_articles=False)
for article in cnn_paper.articles:
print(article.url)
我找不到新闻链接
https://edition.cnn.com/search/?q=%20news&size=10&from=5540&page=555 https://edition.cnn.com/search/?q=%20news&size=10&from=5550&page=556
获取相同的链接
【问题讨论】:
-
请详细说明您的问题。你到底在问什么?
-
我想获取特定站点中的所有新闻链接
-
您能否将您发送的网址的值作为参数发布在报纸库的 .build() 方法中。
标签: python html python-newspaper