【发布时间】:2017-02-27 12:46:06
【问题描述】:
我希望 googlebot 将动态添加到我的站点地图的网址编入索引。我添加的 URL 用于配置文件 (example.com/username)、博客等...我使用带有 react-router 的服务器端渲染,并且一些组件使api 调用api.example.com/...。在阅读了有关爬虫和robots.txt 的文档之后。我了解到 googlebot 在抓取页面时会向链接发出请求。因此,服务器从googlebot.com 获取请求,googlebot 也在进程中与robots.txt 交互。
好吧,我不希望谷歌抓取我的 api 或链接到它的人。这会使服务器过载。 Instagram 的做法完全相同 https://instagram.com/robots.txt
User-agent: *
Disallow: /api/
由于我的理解,我有点困惑谷歌如何抓取公共个人资料的页面(谷歌“Kelly Slater instagram”)。
另外,https://developer.android.com/training/app-indexing/enabling-app-indexing.html#robots(最后一段 - 页面底部)说我需要改为允许 google 向/api/ 发出请求。
问题
因为
/api/被屏蔽了,google如何爬取Instagram页面?它是否等待来自服务器的响应并忽略robots.txt,因为它是来自另一个页面的间接请求?网络抓取与应用抓取不同吗?我是否需要启用
/api/以使我未来的android 应用程序可抓取?我还注意到 Instagram 的
robots.txt中没有Sitemap: ...字段。他们是否使用google ping等搜索引擎的api 提交站点地图?
【问题讨论】:
标签: android api reactjs sitemap google-search