【发布时间】:2025-12-19 08:35:06
【问题描述】:
这是关于newspaper3k图书馆的作者功能。我有这个新闻 URL 列表。 >>>> article.authors”有时没有选择作者。一个例子在这里:authors missing
【问题讨论】:
标签: python parsing web author newspaper3k
这是关于newspaper3k图书馆的作者功能。我有这个新闻 URL 列表。 >>>> article.authors”有时没有选择作者。一个例子在这里:authors missing
【问题讨论】:
标签: python parsing web author newspaper3k
Newspaper3k 使用 Python 包 Beautiful Soup 来提取项目,例如来自新闻网站的作者姓名。 Newspaper3k 查询的 标签 是在 Newspaper3k 源代码中预定义的。 Newspaper3k 尽最大努力从新闻网站上的这些标准标签 中提取内容。
但并非所有新闻来源的结构都相同,因此 Newspaper3k 会遗漏某些内容,因为标签(例如,作者)将在 HTML 中的不同位置结构。
例如 Newspaper3k 在这些 标签 中查找作者姓名:
VALS = ['author', 'byline', 'dc.creator', 'byl']
标签dc.creator 总是位于新闻源的META 标签部分。如果您的新闻来源有不同的作者标签,例如《洛杉矶时报》使用的 article.author,,那么您必须像这样查询该标签:
article_meta_data = article.meta_data
article_author = {value for (key, value) in article_meta_data['article'].items() if key == 'author'}
我在我的newspaper3K overview document 中讨论了许多这些收获问题,我已经在我的Github page 上分享了这些问题。
【讨论】:
by Nelson Daily Staff 于 2020 年 11 月 19 日星期四