【发布时间】:2011-02-27 06:41:42
【问题描述】:
XML、HTML 和 XHTML 文档的正确内容类型是什么?
我需要编写一个只获取这些类型文件的简单爬虫。
现在 http://example.net/index.html 由于 mod_rewrite 可以提供例如 JPEG 文件,因此我需要检查响应标头中的内容类型并将其与允许的内容类型列表进行比较。
从哪里可以得到这样的列表?
【问题讨论】:
标签: html xml http xhtml web-standards
XML、HTML 和 XHTML 文档的正确内容类型是什么?
我需要编写一个只获取这些类型文件的简单爬虫。
现在 http://example.net/index.html 由于 mod_rewrite 可以提供例如 JPEG 文件,因此我需要检查响应标头中的内容类型并将其与允许的内容类型列表进行比较。
从哪里可以得到这样的列表?
【问题讨论】:
标签: html xml http xhtml web-standards
HTML:text/html,句号。
XHTML:application/xhtml+xml,或者仅在遵循 HTML 兼容性指南时,text/html。见 W3 Media Types Note。
XML:text/xml、application/xml (RFC 2376)。
还有许多其他基于 XML 的媒体类型,例如 application/rss+xml 或 image/svg+xml。可以肯定的是,任何以 +xml 结尾的未识别但已注册的结尾都是基于 XML 的。有关以 +xml 结尾的注册媒体类型,请参阅 IANA list。
(对于未注册的x- 类型,所有赌注都已取消,但您希望+xml 会受到尊重。)
【讨论】:
text/xml 和application/xml 之间的区别参见这里stackoverflow.com/questions/4832357/…