Jak naprogramovat textové vyhledávání a nahrazování v souborech PDF

Jak bych mohl programově vyhledávat a nahrazovat nějaký text ve velkém počtu souborů PDF? Chtěl bych odstranit adresu URL, která byla přidána do sady souborů. Podařilo se mi odstranit odkaz pomocí javascriptu pod Batch Processing v Adobe Pro, ale text odkazu zůstává. Viděl jsem doporučení použít retušování textu, které funguje ručně, ale nechci ručně upravovat 1300 souborů.

Odpověď

Hledání textu v PDF může být ze své podstaty obtížné kvůli grafické povaze formátu dokumentu – písmena, která hledáte, nemusí být v souboru souvislá. To znamená, že CAM::PDF má některé možnosti hledání a nahrazování a heuristiku. Vyzkoušejte changepagestring.pl a zjistěte, zda to funguje na vašich PDF.

Instalace:

 $ cpan install CAM::PDF
 # start a new terminal if this is your first cpan module
 $ changepagestring.pl input.pdf oldtext newtext output.pdf