【发布时间】:2020-06-11 10:26:52
【问题描述】:
page.getTextBlocks()
输出
[(42.5, 86.45002746582031, 523.260009765625, 100.22002410888672, TEXT, 0, 0),
(65.75, 103.4000244140625, 266.780029296875, 159.59010314941406, TEXT, 1, 0),
(48.5, 86.123456, 438.292048492, 100.92920404974, TEXT, 0, 0)]
(x0, y0, x1, y1, "块中的行", block_type, block_no)
我的主要目标是:
在 PDF 中搜索文本并突出显示它
必须搜索的文本在一页中可以存在 n 次。使用tp.search(text,hit_max=1) 它可以限制最大出现次数,但它不会解决问题,因为它会选择第一次出现的文本,但对我来说可能是第二次或第三次出现很重要。
我的想法是:
getTextBlocks 提取上面提到的文本,使用此信息特别是 block_no,我想为该特定块执行 page.searchForfunction。逻辑上应该是可能的,但实际上我需要帮助。
对于实现主要目标的任何意见,我将不胜感激。
谢谢
【问题讨论】:
标签: python pdf text-search pymupdf