【发布时间】:2020-02-01 17:03:05
【问题描述】:
我正在使用tika server v1.20 提取文本。
Tika 在正文中添加了 [书签:xx] 和 [图片:xx]。我不要他们。
样本输出:
天才的大脑如何学习 大卫·A·索萨 [图片:天才大脑如何学习] 欢迎参加我们的第三次年度 GATE 家庭图书研究。
转载:
运行服务器 -
java -jar tika-server-1.20.jar -p 5000
输入http://localhost:5000/tika
将文件附加为二进制文件和content-type: application/vnd.openxmlformats-officedocument.wordprocessingml.document
使用 regex\[(image:|bookmark:).*?\] 删除这个标签是有问题的,因为这样的情况:
[image: **[1].jpg]
如何使用tika服务器而不产生这个标签? 如果不可能,如何删除它们?
【问题讨论】:
-
请求 XHTML 版本而不是纯文本版本,然后在获取文本之前跳过这些标签?
-
获取 xhtml 版本让我从中提取文本。它增加了另一个处理时间。