【发布时间】:2017-03-03 08:47:31
【问题描述】:
到目前为止,在我的研究中,facebooks 爬虫似乎不支持 PDF 文件。 共享 PDF 文件的链接时,没有可用的元数据。 这在Open Graph Object Debugger 中很明显 在 PDF 文件中设置元数据没有任何影响。
有没有办法解决这个问题?
【问题讨论】:
-
FB 抓取工具只关心通过 HTML 元标记呈现的元数据。
到目前为止,在我的研究中,facebooks 爬虫似乎不支持 PDF 文件。 共享 PDF 文件的链接时,没有可用的元数据。 这在Open Graph Object Debugger 中很明显 在 PDF 文件中设置元数据没有任何影响。
有没有办法解决这个问题?
【问题讨论】:
这是我想出的解决方案:
我不想直接共享 PDF 的链接,而是共享 HTML 页面的链接,重定向到 PDF 文件。这样,您可以在标题中包含Open Graph 元标记,以供 Facebook 爬虫读取,然后单击链接将提供 PDF 文件。您必须指定要使用的标签。
我就是这样的
<meta property="og:url" content="www.example.com/myfile.pdf?attach=0" />
<meta property="og:type" content="article" />
<meta property="og:title" content="This is the title" />
<meta property="og:description" content="here is the desctiption" />
<meta property="og:image" content="http://example.com/img.jpg />
<meta HTTP-EQUIV="REFRESH" content="0; url=www.example.com/myfile.pdf?attach=0">
?attach=0 表示应在浏览器中查看 PDF。
?attach=1 表示应下载 PDF。
要查看 facebook 看到的元数据,请查看 Open Graph Object Debugger
【讨论】:
HTTP-EQUIV 引起的缓存时遇到问题。