【发布时间】:2026-02-13 04:15:02
【问题描述】:
我正在从这些转储中处理* [http://dumps.wikimedia.org/enwiki/20141208/]。
有关哪些类别与特定页面相关联的信息可从 [http://dumps.wikimedia.org/enwiki/20141208/enwiki-20141208-categorylinks.sql.gz],有关类别本身的元数据可从 [http://dumps.wikimedia.org/enwiki/20141208/enwiki-20141208-category.sql.gz] 获得。
但我无法将隐藏类别与可见类别分开。 例如,页面Anarchism 具有以下可见类别:
Anarchism
Political culture
Political ideologies
Social theories
Anti-fascism
Anti-capitalism
Far-left politics
虽然转储还暗示了许多其他垃圾标签,例如:
Articles_containing_Ancient_Greek-language_text
Articles_containing_Spanish-language_text
Articles_prone_to_spam_from_November_2014
Articles_with_DMOZ_links
Articles_with_French-language_external_links
Articles_with_inconsistent_citation_formats
CS1_French-language_sources_(fr)
CS1_German-language_sources_(de)
Good_articles
Use_British_English_from_January_2014
Wikipedia_indefinitely_move-protected_pages
与早期的一起。现在 Wikipedia 将它们称为“管理类别”或“隐藏类别”,但这些东西不会在转储中标记。
由于我已经过滤掉了这些标签,我的选择是通过模式匹配将它们过滤掉,或者直接从页面中获取可见标签(这是有问题的,因为类别在类别转储和页面中的书写方式不同)。
有什么建议吗?
【问题讨论】:
标签: wikipedia