MacでPDFからテキスト抽出


有価証券報告書の中からテキスト抽出したいなあと思ったのだけど、その時につまずいた部分のメモ。

XPDF使えばいいはずだったのに、そうでもなかった。

brew install xpdf
brew install poppler

でpdftotextコマンドが日本語に対応する。
というか多分後者だけで良いのかもしれない。
popplerはxpdfから派生したものなので。

後はよしなに。

コメントする

あなたのメールは 絶対に 公開されたり共有されたりしません。

次の HTML タグと属性が使用できます: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>