Jak bych mohl programově vyhledávat a nahrazovat nějaký text ve velkém počtu souborů PDF? Chtěl bych odstranit adresu URL, která byla přidána do sady souborů. Podařilo se mi odstranit odkaz pomocí javascriptu pod Batch Processing v Adobe Pro, ale text odkazu zůstává. Viděl jsem doporučení použít retušování textu, které funguje ručně, ale nechci ručně upravovat 1300 souborů.
Odpověď
Hledání textu v PDF může být ze své podstaty obtížné kvůli grafické povaze formátu dokumentu – písmena, která hledáte, nemusí být v souboru souvislá. To znamená, že CAM::PDF má některé možnosti hledání a nahrazování a heuristiku. Vyzkoušejte changepagestring.pl a zjistěte, zda to funguje na vašich PDF.
Instalace:
$ cpan install CAM::PDF # start a new terminal if this is your first cpan module $ changepagestring.pl input.pdf oldtext newtext output.pdf