【文字認識】OCRソフト【自炊】

1 ：名無しさん＠お腹いっぱい。：2016/08/09(火) 21:24:11.61 ID:zXdCMkkb0.net
光学文字認識（こうがくもじにんしき、Optical character recognition）ソフト

75 ：名無しさん＠お腹いっぱい。：2018/04/28(土) 22:11:29.01 ID:bWQs2w/K0.net

あのね、ほんの30年前までは万葉集の中に「●」という文字が
何か所使われているか、一晩徹夜で5回最初から最後までめくって
書き出してリストを作ってたの。

24 ：名無しさん＠お腹いっぱい。：2017/01/06(金) 20:48:52.00 ID:4Q+G11jJ0.net

ちなみにLinuxではファイルとかフォルダの位置関係が重要なので、このスクリプトを
目論見どおり動作させるには、同じフォルダに必要なファイルを全部入れておく必要が
あります。トップディレクトリ直下のDocuments辺りがいいんじゃないでしょうか。
（裏を返すとファイルパスを指定することで全然別のところからも参照できます）

・OCR元のtiff画像ファイル（1009.tif〜1360.tif）
・シェルスクリプトファイル（ocr.sh）
・ブラックリストファイル（black.conf）

tiffファイルが1009から始まっているのは、スキャンした後連番リネームするときに
ノンブル（ページ番号）と同じ番号にしておくとスキャン時に重送しなかったかが
すぐ分かるので便利だからです。つまりこの本は本文が9ページから始まり360ページで
終わっているということです。4ケタなのはゼロ埋めが面倒だからです。

シェルスクリプトを実行すると、できあがったテキストファイルも同じフォルダ内に生成
されます。
・1009.txt〜1360.txt

（連番リネームやファイル連結はやっぱ古兵のvixが便利なのでwine上で愛用中）

なおtesseract-ocrには対象が縦書き文書であることを強制指定するコマンドオプションが
ありますが、これは罠です。そんなものを指定しなくても縦書き/横書きを自動認識しますし、
むしろこれを指定すると段組みを認識しなくなるので指定してはいけません。知らなかった
ばっかりに二段組を上下に分割して以下略……。

43 ：名無しさん＠お腹いっぱい。：2018/04/08(日) 00:49:22.65 ID:VYgJDjR/0.net

Ubuntuで最新tesseractビルドでも高精度認識できたよー
とりあえずスクショだけ
https://i.imgur.com/saI3kEb.jpg
https://i.imgur.com/Gs7Mokj.jpg

ビルドのやり方とかは希望あればまとめます

78 ：名無しさん＠お腹いっぱい。：2018/06/01(金) 11:02:23.02 ID:Qi+8uYQ40.net

もう一つ

校正前のテキストをワードで開く
原本のページ体裁出来るだけワードで再現する
（用紙サイズ、字数、行数、字間、行間など）
ウインドウ透明化ソフトでワードを半透明化最前面
元画像をにワードを重ねる（行間に重ねたり）
比較校正作業

29 ：名無しさん＠お腹いっぱい。：2017/01/12(木) 01:00:28.61 ID:DZC5mCXO0.net

tesseract-ocrの、30MB超えで開くことすら困難な設定ファイル jpn.traineddata。
この中には日本語認識する際のルール・ファイルが各種入っているようですが、
開けないファイルからどうやって取り出すのか、長らく謎でした。

とりあえず認識結果後の変換マッピングを司る jpn.unicharambigs に関しては、
このコマンドで掘り出して、
$ combine_tessdata -e tessdata/jpn.traineddata jpn.unicharambigs
別ファイル化して修正したのち、このコマンドで再度埋め戻せることが分かりました。
$ combine_tessdata -o tessdata/jpn.traineddata jpn.unicharambigs

tesseract-ocrはver.3.04になって認識率がやや向上し、3.03では
並
ョ
と二文字の並びと見なされていた縦書きの　普　がキチンと一文字と認識されます。
それでも縦書きで三点リーダーが二個（……）並ぶのは不得手らしく、認識結果は
ナカグロが六個（・・・・・・）並びます。

もっとも blacklist で認識候補の記号を制限する前は、羅列するのもバカらしいですが
順列組み合わせで200パターン以上になっていたので、それを思えば検索置換一発で修正
できるようになったのは、楽なものです。

でももっと楽になりたくて、『・が三個連続したら、問答無用で、… 一個にする』
という修正パターンを書いてマージしたのですが、何故か反映されませんでした。

何がいけないというのでしょう？

3　・・・　1　…　1
2　並ョ　1　普　1　（←3.03の場合はこう書けば一文字になると思われる）

3 ：名無しさん＠お腹いっぱい。：2016/09/16(金) 18:53:31.42 ID:xb+uDKDF0.net

個人的には流行ってほしいジャンルだけど
基本シェアウェアだしスレの伸び見ても需要無いんだな

60 ：名無しさん＠お腹いっぱい。：2018/04/16(月) 23:39:00.31 ID:JXJw+uBT0.net

>>57
gcv2hocrの作者様ですね。有用なツール開発ありがとうございます

縦書きPDFの出力は tesseract 4.0 や OCRmyPDFがが実現してるので
pdfrenderer.cpp あたりの出力部分だけ切り出して何とかならないのかなあ、なんて
なんつって自分はソース見ても全然理解できなかったですが
json座標から縦横判定のほうが厳しそう
googleさんは解析時に縦横分かってるわけだし今後のアプデでオプション増えるのを期待

個人的に自炊PDF(OCRなしで画像のみ)を画像劣化なしでサーチャブルにするツールが欲しくて調べてた

　・OCRmyPDF (tesseractエンジン元々そういう用途向き)
　・tesseract 4.0　→ 画像を含まない透明テキストのみのPDFが作れる (-c textonly_pdf=1)
　・gcv2hocr + hocr-tools →フォーク版で画像を含まない透明テキストのみのPDFが作れる(–nodraw)
　　https://github.com/zvezdochiot/hocr-tools

→ pdftk の multibackground オプションで画像pdfと透明テキストpdfを重ねる
　　pdftk images.pdf multibackground text.pdf output full.pdf

Win使いがAcrobatだのe.Typistでコレジャナイ感味わい続けてる間に
linux界隈ではとっくにできるようになってたという…
exe化して1パッケージにまとめればWinの自炊者にも需要あると思うわこれ

47 ：名無しさん＠お腹いっぱい。：2018/04/08(日) 02:20:22.39 ID:VYgJDjR/0.net

了解です
ちとまとめるので時間ください

>>44
いやこれただのテキストデータなんでレイアウト情報は元々ない
認識文字の見比べしやすいようにテキストエディタで擬似的に縦書きや段組っぽく見せてるだけ
PDF出力すれば透明テキストはちゃんと画像の文字の上に被さるけどね

数式に関してはあれは図と同じだと思いなせえ
そもそも平テキストだけで表現できずLaTeXなどの組版処理が必要なカテゴリですやん
もともとOCRでどうこうできるものではない

4 ：名無しさん＠お腹いっぱい。：2016/10/18(火) 21:15:57.03 ID:8+1fcpg80.net

OCRソフト　製品版

メディアドライブ（株）
　e.Typist v.15.0　　　58ヵ国語対応　　　直販価格　　　19,800円（税別）
　e.Typist NEO v.15.0　　　日本語・英語のみ　　　直販価格　　　12,190円（税別）
体験版アリ
　　　http://mediadrive.jp/products/et/index11.html

パナソニックソリューションテクノロジー（株）
　読取革命Ver.15　　　　　　　　　直販価格　　　12,800（税別）
（読取革命Ver.15 lite for Mac同梱）
体験版アリ
　　　http://www.panasonic.com/jp/company/pstc/products/yomikaku/demo.html

ソースネクスト（株）
本格読取4　　　　　　　　　　　　直販価格　　　3,400円（税別）
（読取革命の旧製品の再パッケージ版）
　　　http://www.sourcenext.com/product/pc/use/pc_use_000941/

16 ：名無しさん＠お腹いっぱい。：2017/01/03(火) 01:48:22.51 ID:/4niW42M0.net

tesseract-ocrの認識率を下げないための工夫

tesseract-ocrで検索すると、認識率を上げるための学習ファイルの作り方を指南したサイトが
それなりにヒットしますが、やはり自炊を目的とした日本語縦書き300ページ程度をOCRするため
の指南役サイトは見たことがありません。仕方なく自分で試行錯誤した結果、

1.スキャンする時に解像度300dpi以上の.tiff形式で行う

※当方の環境はlinux上でtesseract-ocr3.03と3.04を試しています。

構造上ノイズだらけのjpegだと肉眼には優しくてもソフトウェアにとってはそうではないみたい
で、当初オフィス用複合機のPDFでスキャンしてjpegに変換して読み込ませてみたのですが、そ
の結果は惨憺たるものでした。

所詮はフリーソフトかとその時は思いましたが、ふと.tiffでスキャンしてOCRをかけたところ、
認識率が飛躍的に向上しました。

ちなみに.tiffには拡張子が同じでも複数規格があり、
FujiXeroxの複合機でスキャンする＝CCITT Bilevel Encodings G4 FAX T.6
リコーの複合機でスキャンする＝CCITT Bilevel Encodings G3 FAX T.4
という圧縮がかかった.tiffファイルが得られます。

どちらも黒白二値で圧縮された形式なので、ページ一枚がjpegだと256KB程度がtiff-G4だと
25.6KB程度、tiff-G3だとその四割増し程度になりますが、tiff同士の認識率に違いはありませ
んでした。

なお他形式やG3からG4への変換は、IrvanVeiwとかLinuxだとImageMagickで一括変換できます
が、元がjpegからだと失われた情報が戻らないので認識率は下がります。

8 ：名無しさん＠お腹いっぱい。：2016/10/27(木) 14:01:52.20 ID:Lf4Jkeck0.net

Googleドキュメントに丸投げが1番楽で精度も高い
つまり上で名前の上がってるようなソフトは今や全てゴミ

54 ：ハカーを待ちながら：2018/04/16(月) 19:28:05.86 ID:jfy34C3d0.net

ふと「ノイズの極少ない元画像からならどこまでやれるのか？」を思い立ち、エディタの
画面上に22ポイントで縦書き画面を再現したものをスクリーンショットして、それを元画像
にして神の手版tesseract-ocrでOCRしてみたところ、結果は段落空きと3点リーダー以外ほぼ
完璧と言っていい認識結果となりました。

22ポで画面上に再現した擬似元画像
https://imgur.com/Z967Vz9

それをOCRした結果のスクリーンショット
https://imgur.com/Psbsp9m

つまり最新版のtesseract-ocrは現状でほぼ完全に近い認識能力を持っていると。
……ノイズのない完璧な元画像からであれば。

ただそれは物理の問題とかに出てくる『ここに伸び縮みしない真っ直ぐな棒がある』と同様、
スキャナーを通して読み取る以上現実にそんなノイズのない元画像はあり得ない訳で、あとは
どうやってノイズが少なくなるような加工技術を編み出すか？　になっていくのでしょうか。

44 ：名無しさん＠お腹いっぱい。：2018/04/08(日) 01:18:01.31 ID:q/iTgbtt0.net

>>43
そっちの方が参考になった
やっぱり文章レイアウトの認識はあんまりみたいだな

31 ：名無しさん＠お腹いっぱい。：2017/01/22(日) 22:25:34.24 ID:/FwmeFUS0.net

日本語化スレにも書きましたが、
【　　名　称　　】Capture2Text
【　バージョン　】3.9
【　　概　要　　】PC画面やポップアップウィンドウなどの文字列取り込み
【　ライセンス　】フリーウェア
【　ウェブサイト】http://capture2text.sourceforge.net/
【多言語化対応】不明

を使っている人いますか？
日本語化はありますか？

30 ：名無しさん＠お腹いっぱい。：2017/01/20(金) 21:05:57.72 ID:gQQqe6X80.net

無料で

数式OCRできる方法教えてくれ

36 ：名無しさん＠お腹いっぱい。：2018/03/04(日) 10:09:31.44 ID:FYRZq+9m0.net

自炊版てどこですか

67 ：ハカーを待ちながら：2018/04/20(金) 23:23:17.07 ID:Vm4QLpiQ0.net

しつこく今度はノイズ除去オプションを使ってみます。
元tiff画像をImageMagickで-despeckle（ノイズ除去）オプションを施して滑らかにした画像
　　https://i.imgur.com/8CE8uD3.png
上記画像を最新のtesseract-ocrでOCRした結果のスクリーンショット
　　https://i.imgur.com/0HQ6Pog.png
上記画像を一つ前のtesseract-ocrでOCRした結果のスクリーンショット
　　https://i.imgur.com/JithSee.png

どうも何というか、こじらせているというか、なかなか言うことを聞いてくれないですね。

32 ：名無しさん＠お腹いっぱい。：2017/03/05(日) 14:45:05.40 ID:UtesglO/0.net

googleのはなあ…
こいつらに情報渡したくないからいくら良くても使えないわ

23 ：名無しさん＠お腹いっぱい。：2017/01/06(金) 20:13:04.83 ID:4Q+G11jJ0.net

さて、それなりに吟味して作ったブラックリストの内容を記述したファイルをとりあえず

black.conf

とでも名づけて保存しておきます。

当テスト環境はLinux(LinuxBean)なので、文字コードはutf-8、改行コードはLFですが、
Windows環境でこの辺どうすべきなのか、当方には不明です。

あとはシェルスクリプトを介してtiffファイルの数だけOCR処理を繰り返し処理させれば、
マシンパワーに応じた待ち時間の末に同じ数だけtxtファイルが出来上がります。

以下点線の内側をシェルスクリプト ocr.sh として保存します。
—————-
#!/bin/bash
#連番ファイルの1009.tifから1360.tifまでblack.confファイルのブラックリストを
#参照しつつtesseract-ocrでOCR処理を繰り返す

for i in `seq 1009 1360`
do tesseract ${i}.tif ${i} -l jpn black.conf
done

77 ：名無しさん＠お腹いっぱい。：2018/06/01(金) 10:50:24.17 ID:Qi+8uYQ40.net

スキャン画像・・・

48 ：42：2018/04/12(木) 00:27:46.59 ID:EyDdIten0.net

遅くなってすまん
まとめるとか偉そうに言ったけどほぼに↓の通りにやっただけ
https://ameblo.jp/yoshihirow/entry-12280797214.html

1. コンパイルに必要なライブラリのインストール
2. Leptonicaのコンパイルとインストール
3. tesseract-ocr 4.0.0β のコンパイルとインストール
4. 言語データtessdataのダウンロード
5. サンプル画像でOCRのテスト

注意点としては
2.Leptonicaは公式でtar.gz貰ってくるとconfigureで引っかかるので
githubから最新ソース落としてmakeする

$ git clone –depth 1 https://github.com/DanBloomberg/leptonica.git
$ cd leptonica
$ ./autobuild
$ ./configure
$ make
$ sudo make install

4.言語データはすべて tessdata_fast (https://github.com/tesseract-ocr/tessdata_fast)を使う
jpnとjpn_vert両方入れるのが胆

5.サンプル出力 ver.4では–oem 0と2のオプションはエラーになるので使わない
言語指定は -l jpn+jpn_vert が一番精度良くなるよ

42 ：名無しさん＠お腹いっぱい。：2018/04/08(日) 00:40:34.26 ID:q/iTgbtt0.net

>>40
確かにそれは参考情報と言われれば参考情報だけど
原本が都合よすぎるだろ？
言ってみれば、OCRソフトにとって最も力が発揮出来る状況=ベストエフォート？を示しただけに過ぎないって言うか。

その原本は文字オンリーで図も表もグラフも無くて、しかも1つ1つの文字が人間にとっても明確に視認出来るから。

自炊してる人にとっちゃ家庭用スキャナでスキャンしたものはその原本までハッキリ･くっきりじゃないし、図･表･グラフ･写真･数式あるし

41 ：名無しさん＠お腹いっぱい。：2018/04/08(日) 00:17:10.29 ID:OEAttGvE0.net

cloudvisionは？

85 ：名無しさん＠お腹いっぱい。：2018/06/17(日) 14:51:45.64 ID:UW0RCtPR0.net

そんなルールはないぞ

15 ：名無しさん＠お腹いっぱい。：2017/01/01(日) 10:45:53.16 ID:bJoGCIrB0.net

>>14
Googleが一番やろ〜w

79 ：名無しさん＠お腹いっぱい。：2018/06/07(木) 22:56:25.84 ID:oM4s8ZW30.net

ルビが扱いたいと結局e.Typistしか選択肢がない感じがあるけど
e.Typistは――とか・・・・・・にすごく弱い感じがする
ーや1として認識されるならまだいい方で
空白を認識する設定にすれば空白として出力してくれるけど
逆に言えば文字としては認識されてないことが多いので修正も不能で困る

84 ：名無しさん＠お腹いっぱい。：2018/06/16(土) 17:16:54.01 ID:DpwT78Ra0.net

長文駄レスやめーや

52 ：ハカーを待ちながら：2018/04/16(月) 17:33:07.75 ID:jfy34C3d0.net

最新版のtesseract-ocr4.0β＋jpn+jpn_vertでOCRした結果のスクリーンショット
https://imgur.com/OmTeJEv

jpnだけだと半角スペースが入りまくりだが、jpn+jpn_vertで見事に消える。
認識結果を一つ前のと比較すると、全体に大振り気味で当たれば見事ホームランだが外すと
余計な文字が混入する感じ。『ピーキーなチューニング』とでもいうべきか。
–oem オプションで0を選択できない（=複数のOCRエンジンを使用）せいか、CPUパワーの
消費が三倍くらい増える。

33 ：名無しさん＠お腹いっぱい。：2017/03/14(火) 21:45:43.63 ID:Qc719WwL0.net

逆に言えば渡していい情報ならいくらでも使える。
スマホやタブでスキャンして、資格試験の暗記問題なんかをタイプウェル用のテキストにしようと
思って、試行錯誤した結果googleに落ち着いた。
なんとなくここに来たら、やっぱ同じ結論か。

あとはコンデジ使うかスマホ使うか

21 ：名無しさん＠お腹いっぱい。：2017/01/05(木) 22:06:35.47 ID:8PejRFef0.net

ブラックリストの指定の仕方は行頭に、

tessedit_char_blacklist

と入力して、半角スペースを挟んでNGに指定する文字を続けて列記します。

↓ブラックリストのサンプル（実際は1行に繋がっています）

tessedit_char_blacklist fhijklmnrstuvwxyzABDEFGHIJKNPQRTUVWXYZ7ぁぃぅぇぉゅゎ丿
ァィゥェォヵヶヮ_*/¥〆ゝゞヾ,.;=^‾’`”[]{}<>〈〉〔〕《》『』【】†‡°

・出現頻度からかな/カナの小文字は全部大文字にさせる
・行頭に#を入れるとその行はコメントとして無効化される

なお上記以外にも日本語には出てこない文字/記号はありますが、ある程度間違える余地を
残しておいた方が後々の校正は容易くなるはずです。

上記のブラックリストサンプルに a と c と o といった丸っこい文字を入れて排除してしまうと、
句点（。）として認識できなかったときに文字ごとエラーと見なされて消されてしまうからです。

（例）
メロスは激怒した。必ず、かの邪智暴虐じゃちぼうぎゃくの王を除かなければならぬと決意した。
メロスには政治がわからぬ。

（間違い）
メロスは激怒したc必ず、かの邪智暴虐じゃちぼうぎゃくの王を除かなければならぬと決意したa
メロスには政治がわからぬ。

（エラー）
メロスは激怒した必ず、かの邪智暴虐じゃちぼうぎゃくの王を除かなければならぬと決意した
メロスには政治がわからぬ。

39 ：名無しさん＠お腹いっぱい。：2018/04/07(土) 07:35:39.83 ID:H8LepRyi0.net

所見

サンプルの画像に対してOCRかけて
｢この画像に○○のソフトでOCRかけてかけるとこういう風になりました｣
ってのないの？
さすがに言葉だけじゃ微妙な感じが全然伝わらないから

6 ：名無しさん＠お腹いっぱい。：2016/10/18(火) 21:29:38.69 ID:8+1fcpg80.net

>4に続けて以下のをアップしたかったんだけど、NGワード食らって弾かれるな…。

（株）データデジタルのRealReader Lite 8
（株）エーディーディーのABBYY FineReader 12
アンテナハウス（株）の瞬簡PDF OCR
Rene.E LaboratoryのRenee PDF Aide

57 ：名無しさん＠お腹いっぱい。：2018/04/16(月) 20:49:18.86 ID:0tAKuDhz0.net

>>56のgithubに投稿した者だけど、hocr-toolsでpdf生成に使っているPythonのreportlibが日本語縦書きをサポートしてないことまではわかりましたw

reportlibを弄るのは手に余るので、求むハカー！ですw

40 ：ハカーを待ちながら：2018/04/07(土) 22:12:54.68 ID:j2p9bLt50.net

>>39
自炊技術総合25@電子書籍板のレス番#906に、Windows版VietOCR(=ベトナム語用OCRソフト)を
使った結果のスクリーンショット画像が載ってる。
https://i.imgur.com/tj1ARCW.png

OCRエンジンは毎度おなじみオープンソースのtesseract-ocrを使ってて、VietOCRは
窓口だけのはずなのに、認識した文字列の正解率が横書きのみとはいえ何故か異様に高い。
Linux版は、インストールしてみたけど間違え方が違う程度で、Windows版には及ばなかった。

Windows環境で横書き文書をOCRしたい人は試して欲しい。

#Linux＋tesseract-ocrの結果サンプル画像はもう少し待ってくれ

26 ：名無しさん＠お腹いっぱい。：2017/01/07(土) 01:50:26.86 ID:EIbs2jCQ0.net

「うわっはっはっ、何を言い出すかと思えば、所詮はクレジットカード一枚作ることが
できない自宅警備員のたわごとではないか。カード一枚と引きかえに最先端のAIや
ディープラーニングが手に入る時代に、tesseract-ocrなどという旧態依然のフリーソフト
にこだわるなどとは笑止千万。本当の最先端が今やどんな高みにまで昇りつめているか、
この私がお目にかけよう」

と、白髪混じりのオールバック美食家なスーパーハカーが登場して、エンドユーザー
にもやさしく解説してくれるなら、アタシは黙って身を引くわ……。

66 ：ハカーを待ちながら：2018/04/20(金) 23:15:45.08 ID:Vm4QLpiQ0.net

最新版tesseract-ocrの認識スコアが最後まで前回レベルで持続できていたら問題はない
のですが、残念ながら大振りゆえブレ幅が大きく、外したときは「なんでこうなるの？」
という結果になってしまいます。。

300dpiでスキャンした元tiff画像
　　https://i.imgur.com/yPcJCI0.png
上記画像を最新のtesseract-ocrでOCRした結果のスクリーンショット
　　https://i.imgur.com/eBH0JQn.png
上記画像を一つ前のtesseract-ocrでOCRした結果のスクリーンショット
　　https://i.imgur.com/buq3aE5.png
これだと旧バージョンの方が間違える幅が小さいと感じられるのではないでしょうか。

では元画像をチューニングすることでもう少し何とかできないか？　Linux界にはImageMagick
というコマンドラインから使う画像変換ツールがあるので、ぼかしオプションを適用して
もう少し滑らかな曲線に近づけてからOCRしてみました。　

元tiff画像をImageMagickで-blur（ぼかし）オプションを施して太く滑らかにした画像
　　https://i.imgur.com/AQey4zb.png
上記画像を最新のtesseract-ocrでOCRした結果のスクリーンショット
　　https://i.imgur.com/TK4GNwm.png
上記画像を一つ前のtesseract-ocrでOCRした結果のスクリーンショット
　　https://i.imgur.com/Mr61je5.png

果たしてOCRには画像がどう見えているのか？　結果は変われどあさっての方に振っています。

22 ：名無しさん＠お腹いっぱい。：2017/01/06(金) 17:28:28.61 ID:1hEabIWn0.net

今どきディープラーニングも使わないtesseractじゃね・・・。

自作アプリに組み込んだが、
認識精度は低かったぞ。

55 ：名無しさん＠お腹いっぱい。：2018/04/16(月) 20:17:56.21 ID:0tAKuDhz0.net

>>51のいちばん最初の画像を使って、Google Cloud VisionのOCRをかけてみた。

https://imgur.com/a/3TL1i

51 ：ハカーを待ちながら：2018/04/16(月) 16:40:46.99 ID:jfy34C3d0.net

神のお言葉に従いテストベッド環境に最新版tesseract-ocrをインストールして、250ページほどの
新書をまるごと一冊OCRしてみたのですが、どうもこちらの信心か功夫が足りないのか、正直
『かなり悪くはないがけして手放しで喜べる程良くはなかった』というのが正直な所。

以下、不慣れながらもスクリーンショットを挙げてみたので、見ながら解説。

オフィス用複合機のADFで300dpi・G4圧縮で保存したOCR元のtif画像
　https://imgur.com/FRIY8a9

以前jpgでスキャンしたものより的中率が向上したのとファイルサイズが小さくなるので、
以後ずっとtifで保存するようにしているのだが、元の紙面が経年劣化によるシミ・ソバカス
でクリーンな状態とは言いがたく（だからテキスト化するのだが）、ノイズが少なからず
乗ったままOCRかけるので、今後は別の手段を考えるべきかもしれない。

最新版から一つ前のtesseract-ocr4.0αでOCRした結果のスクリーンショット
　https://imgur.com/21b2PK4

[っ]直後の[は行のひらがな]は必ず[半濁音にする]的な後処理を加えてあるので、厳密には
スタンダードとは言えない。[ぁぃぅぇぉゎ]が混ざるのが地味にいらつく。

最新版から一つ前のtesseract-ocr4.0α＋blacklist（小書きを禁止＋後処理）
　https://imgur.com/6Yh4riW

後処理に加えて、blacklistで[小書きのひらがな]や[日本語の文章に出てこない記号]をはじく
ように事前処理してある。[3点リーダー]を正しく認識できないが、これが現段階の自身でできる
最善のチューニング状態。

65 ：ハカーを待ちながら：2018/04/18(水) 21:35:49.78 ID:cpORIMNk0.net

>>63
どなたか存じませんが、代わりにお手数ありがとうございます。

この手のサイトにアップロード自体初めてで、ボツ画像を何倍もアップしたのは内緒。
画像上→右クリックで拡張子込みのアドレスが得られるのね。次回があればそうします。

50 ：ハカーを待ちながら：2018/04/12(木) 23:19:55.32 ID:vCwgAmwn0.net

>>48
まとめ作成お疲れ様です。

tesseract-ocr4.00αをインストールするとき、自分も当時同じサイトを参考に
しましたけど、Leptonicaもtesseract-ocrもそれぞれバージョンが上がってたのね。

とはいえ最新ソースからmakeするとか言語ファイルをtessdata_fastから取ってくるとか、
自分ひとりでは絶対思いつかないし、あまつさえインストール用のシェルスクリプト
（Windowsでいうバッチファイルみたいなもの）まで作ってくれて、どうもありがとう。

既存環境との衝突防止対策するより、バージョン違いのWineとのからみもあるので、
MicroSDカード上にクリーンなxubuntu環境を作って、そこにインストールしようかな。

当方32GBのMicroSDHCをUSBに変換するアダプタに挿して、切り替えボタン付きのUSBハブから
ブートさせてxubuntuを使っているので、複数のMicroSD＋USBアダプタさえ用意すれば異なる
Linux環境をUSBハブのボタンひとつで使い分けられて、そこそこ便利です。

でも同じOSをインストールしているはずなのに、出来上がった挙動やファイル構成が微妙に
違うのは、再インストールしたWindowsと似たようなもんかしら。

71 ：sage：2018/04/23(月) 15:36:58.50 ID:3ep7Hu9S0.net

OCRで、ごくまれになのだけど、な-た　の誤読があって。
これにまいったのが遠い思い出。されたい　されない　　というのは
あまりに神経を使うので、自分で校正するのを諦めた。

76 ：名無しさん＠お腹いっぱい。：2018/06/01(金) 10:48:04.16 ID:Qi+8uYQ40.net

同好の士がいるみたいなので私のやり方の一つを紹介

縦書き小説のテキスト化限定
段組み無しか2段組み程度のレイアウトの単純なもの限定
読取革命使用前提

スシャン画像の傾き補正余白除去など画像処理を程々にする

処理した画像を横に8ページ分つなげる（2段組みの場合は縦に6ページ）※これが校正作業効率化の肝

つなげた画像を読み込ませて読取革命で作業

認識率アップは程々に
校正作業効率アップの方が気楽

38 ：名無しさん＠お腹いっぱい。：2018/03/05(月) 07:26:58.53 ID:wBe53wun0.net

ありがとうございます

28 ：名無しさん＠お腹いっぱい。：2017/01/12(木) 00:57:18.93 ID:DZC5mCXO0.net

tesseract-ocrの識字率を上げるためにスキャン画像から学習ファイルを作る手口は、
検索でヒットする幾多のサイトで指南されています。

さながら刀匠のごとく、コマンドを重ねて玉鋼から刀身を作るように順繰りに加工していく
訳ですが、Linux版tesseract-ocrのver.3.03だと途中の unicharset というコマンドが
なぜか実行できず（『そんなプログラムありません』でエラーになる）、ubuntu16.04LTS
（16年4月製長期サポート版の意）でver.3.04を試したらやっと最後の jpn.traineddata
ファイルの生成まで辿り着けたのですが、実はこれと同じ名前のファイルはすでに
アプリケーション側の設定フォルダにあります。

元の jpn.traineddata は30MB超えの、テキストエディタでも開けないようなゴツい代物で、
対する新jpn.traineddata は1MB足らず。ならばあとは旧ファイルの認識がおかしい部分に
新ファイルをマージすれば良さそうですが、その手段が何故か何処の指南役サイトにも書いて
ありません。

旧ファイルに匹敵するサイズの新ファイルをゼロから作るのは現実的ではないと思われますが、
先達がこの辺をどうしているのかは不明。

ちなみにWindows版tesseract-ocrには tesseract-box-editor というMicrosoft .Net
Framework 4.0で動作するアドオンだかがあって、それを使うと新旧ファイルをマージできる
らしいです。

「ネットに載っていないblacklistファイルまで自力で辿り着けたのはなかなかだが、jpn.traineddataが元のままなのはいただけないな」
「！」
「一週間お待ちください。本物のtesseract-ocrの実力をお目にかけますよ」

井上和彦の声で喋るオールバックのスーパーハカーの登場をお待ちしています。切実に。

86 ：名無しさん＠お腹いっぱい。：2018/06/20(水) 00:23:42.81 ID:4KCvLiUk0.net

MSのOCRはどうなんかね？
https://docs.microsoft.com/en-us/uwp/api/Windows.Media.Ocr#code-snippet-4

5 ：名無しさん＠お腹いっぱい。：2016/10/18(火) 21:20:32.53 ID:8+1fcpg80.net

現行の出回ってる製品くらい並べろよ＞1と思ったら、なんだ？　NGワードって？

20 ：名無しさん＠お腹いっぱい。：2017/01/05(木) 20:59:02.85 ID:8PejRFef0.net

続・tesseract-ocrの認識率を下げないための工夫

2.不要な認識候補文字をブラックリストで指定して排除する

※当方の環境はlinux上でtesseract-ocr3.03と3.04を試しています。

以前tesseract-ocr以外のOCRソフトを使ったときのこと。帳票というか、罫線の中に数字と
カンマとピリオドしかないペーパーをスキャンして取り込むために認識候補を『英数のみ』に
設定してOCRを実行したのですが、

「なんで 2 じゃなくて Z って認識するワケ？　候補を数字だけに絞れば良さそうなのに、
なんでできないの？　バカなの？　死ぬの？」

と思ったことがありました。

tesseract-ocrにはホワイトリストとブラックリストというオプションを指定することで、
認識候補文字を制限することができます。

ホワイトリスト＝認識候補文字を指定した文字だけに限定する

先程の帳票認識時の様に、認識候補文字を『　0123456789.,　』以内に限定したいときに
使いますが、縦書き日本語の自炊目的には使わないので今は捨て置きます。

ブラックリスト＝認識候補文字を指定した文字以外に限定する

↑ちょっと変な日本語になってますが、要するに「縦書き日本語の小説にフツーはこんな記号や
文字は出てこないんだから、候補から外せば正解率上んじゃね？」ってことです。

で、実際指定したら間違いのブレ幅が確実に少なくなるので一括置換で修正もやり易くなる
のですが、tesseract-ocr blacklist で検索しても、何故かほとんどヒットしませんでした。

69 ：名無しさん＠お腹いっぱい。：2018/04/21(土) 14:10:45.01 ID:TzRxXe7t0.net

あー… よく見たら2値画像をカラータイプ変換も拡大もしないで補正かけてんのね
これはヒゲ増えただけでボケてないしOCR的にどうとかいう以前に補正かけた意味がない
https://i.imgur.com/EzPduGV.png
画像に関してある程度のフォーマット知識と目視で判断できる眼や環境がないと
検証に値する画は作れないと思う
これでは勤勉な無能者状態で、申し訳ないが何の参考にもならないし誰の得にもならない

コマンドラインでがんばりたい縛り？なのか知れんけど
まずはGIMPなりでプレビュー見ながら調整して設定詰めて方針が固まったら
本運用時にImageMagickにメモっといたパラメータで流し込むとか手順踏んだほうがよくない？

17 ：名無しさん＠お腹いっぱい。：2017/01/03(火) 02:13:20.84 ID:R8/S2ECj0.net

>>16
いやtesseractは認識精度低いから・・・

Cloud Vision使えよ

高画質画像もいらないから

【文字認識】OCRソフト【自炊】

レスを投稿する（名前省略可）コメントをキャンセル

この記事を読んだ方へのおすすめ

カテゴリ一覧

最新のまとめリスト

最近のコメント

レスを投稿する（名前省略可） コメントをキャンセル

この記事を読んだ方へのおすすめ

カテゴリ一覧

最新のまとめリスト

最近のコメント

レスを投稿する（名前省略可）コメントをキャンセル