【发布时间】:2020-03-28 14:48:48
【问题描述】:
我浏览了所有描述类似问题的问题,但没有找到解决方案,所以这里还有一个。
有问题的页面是这个https://attanasioscrive.it/cipolle/;您会注意到 <head> 中的所有元标记:
<meta property="og:title" content="Cipolle e altre disgrazie" />
<meta property="og:description" content="Un libro per chi non ha pazienza per i libri, una ricca collezione di storie cazzute.
Dai un'occhiata senza impegno e guarda cos'ha da offrire." />
<meta property="og:url" content="https://www.attanasioscrive.it/" />
<meta property="og:site_name" content="AttanasioScrive" />
<meta property="og:locale" content="it_IT" />
<meta property="og:type" content="book" />
<meta property="og:image" content="/static/blog/img/cipolle_fb.png" />
<meta property="og:image:alt" content="Copertina del libro Cipolle e altre disgrazie" />
<meta property="og:image:type" content="image/png" />
<meta property="og:image:width" content="1200" />
<meta property="og:image:height" content="600" />
<meta property="twitter:title" content="Cipolle e altre disgrazie" />
<meta property="twitter:description" content="Un libro per chi non ha pazienza per i libri, una ricca collezione di storie cazzute.
Dai un'occhiata senza impegno e guarda cos'ha da offrire." />
<meta property="twitter:site" content="AttanasioScrive" />
<meta property="twitter:card" content="product" />
<meta property="twitter:image" content="/static/blog/img/cipolle_tw.png" />
<meta property="twitter:image:alt" content="Copertina del libro Cipolle e altre disgrazie" />
不幸的是,Facebook 的调试器似乎认为这些标签根本不存在,无论我点击多少次“再次抓取”按钮,根据一些 Facebook 支持页面,这应该会使抓取工具的缓存无效并适当地查看最近的更改。
在调试器的警告中,有“SSL 错误”,尽管我的 SSL 证书是有序的,这让我认为他们的爬虫歧视 Let's Encrypt,但最重要的是可能会阻止爬虫实际读取页面,没有错我自己的。我在网络上的某个地方读到 Facebook 在抓取 https URL 时遇到了麻烦,我希望这不再是真的,我不想仅仅为了 Facebook(也可能是 Twitter)的缘故而支持不安全的 http。
更新: 部分问题是由于我的 nginx 配置文件未指向完整链证书造成的。更正此问题后,Facebook 和 Twitter 的调试器可以正确查看该站点。
但是,再次运行 Facebook 的调试器,我注意到它现在可以获取一些属性,但不是全部:og:url、og:type、og:title、og:image、og:description 是它提到,但值得注意的是它也抱怨 og:url 的内容与页面不匹配,所以这里显然有问题。
从“查看我们的抓取工具对您的 URL 看到的确切内容”功能,我可以清楚地看到抓取工具看到的 HTML 来自我的主页,而不是我提供的特定 URL(参见上面的 URL),但我想要特定页面的特定输出。我应该更正 og:url 到我想要链接到的特定页面吗?这是否也会修复其他无法正确读取的标签?
【问题讨论】:
-
问题是你有连锁问题:ssllabs.com/ssltest/…
标签: facebook twitter facebook-opengraph