【发布时间】:2017-07-15 22:27:05
【问题描述】:
我正在开发一个抓取工具,我正在尝试编写一个集成测试来抓取存储在磁盘上的 HTML。测试应该从 img src 抓取图像 url。在代码中,这归结为Jsoup.connect(url),其中 url 是一个字符串。我知道模拟,但这不属于集成测试。这就是我认为托管网站并真正返回图像的原因。当然也欢迎其他选择。
理想情况下,在测试运行时启动一个占用空间小的 Web 服务器。我应该能够确定或至少知道它发布网站的网址。我还应该能够将 Web 服务器指向一个 HTML 文件。
爬虫项目是一个 Spring Boot。我可以静态地提供页面,就像从 /static 中一样,而不是由控制器解决。当我有一个控制器返回页面时,它由 Thymeleaf 解决并抛出org.xml.sax.SAXParseException: The entity name must immediately follow the '&' in the entity reference。为了查看这些结果,我运行了整个 Spring Boot 应用程序。
【问题讨论】:
标签: java spring spring-mvc spring-boot integration-testing