【发布时间】:2017-03-26 13:40:16
【问题描述】:
我在 GitHub 上托管了一些公共存储库,它们偶尔会根据流量图接收克隆。虽然我想相信很多人都在找到我的代码并下载它,但其中一些代码的性质让我怀疑这些克隆中的大多数来自机器人或搜索引擎爬虫/蜘蛛。我自己知道,如果我通过搜索引擎找到一个 git 存储库,我通常会用我的浏览器查看代码,并在克隆它之前确定它是否有用。
有谁知道克隆 git 存储库是否是搜索引擎爬虫的标准技术,或者我的代码是否比我想象的更受欢迎?
【问题讨论】:
-
我昨天在 github 上放了一个新项目(有史以来第一次)。到目前为止,insights 说我只有一个网络访问者(大概是我),但我有 10 个独特的克隆。我假设有些机器人可能会通过 github API 找到有关 github 项目的信息,然后出于任何原因克隆 repos。这些爬虫可能是专门为索引源代码而设计的。我当然发现谷歌过去曾将我带到源代码,所以这必须以一种或另一种方式发生......
标签: git search github web-crawler git-clone