【发布时间】:2011-05-04 05:54:54
【问题描述】:
我需要从这个既有文字又有图片的杂志中提取“文章”。图像内容必须分开放置,文本提取(尽可能)并分开放置。
我该怎么做呢?是否已经有商业服务/ api 可以做到这一点?程序/服务的输入只是文件。
输入例如:http://edition.pagesuite-professional.co.uk/pdfspool/rQBvRbttuPUWUoJlU6dBVSRnIlE=.pdf
(实际文件将是普通的 pdf 文件,而不是安全文件)
【问题讨论】:
标签: pdf text-extraction