[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

Re: pdftotextは日本語可だったのね



井上です。

Noritsugu Nakamura <nnakamur@...> writes:

> xpdf に付属の pdftotext は日本語も通すようですね。
> 先日始めて知りました。

最新版はいくつなんでしょうか。
先ほどFreeBSD portsからxpdf-0.90をインストールして試してみました。
題材は「PostgreSQL完全攻略ガイド」
http://www.sra.co.jp/people/t-ishii/PostgreSQL/postbook/
の第1章でした。

$ pdftotext -eucjp ch.1.pdf
とかすると色指定が理解できないみたいなエラーがどさっと出ますが、一応変換
は完了しているようです。
行頭のよけいなスペースを削除したらだいたい読めるように変換されているよう
です。何となくスペースを使って1行の空行をつくっているって感じがあるので、
本当は何十桁か以上のスペースだけ取り除けばいいんだと思います。

後は段組みとかになっているときにどれくらい賢く読み順に取り出してくれるか
とか、セキュリティがかかっているドキュメントではどうかということですかね。

便利なものを紹介していただき、ありがとうございました。
-- 
                    Koichi Inoue, ARGV
                    E-Mail: inoue@...
                    ICQ UIN: 74900690