印刷された文字列を手早くテキストデータ化する方法

      2015/01/01

イメージスキャナでスキャン?

紙に印刷された文字列をテキストデータにする場合、スキャナで取得した文字入り画像に対してOCRをかけるのが一般的だと思います。紙の書籍内の文字列をすべてデータ化したい場合は、書籍を裁断しそれをスキャナで高速にスキャンするいわゆる「自炊」をすることになります。

しかし、書籍内のたった1,2ページ程度の文字列を取得するだけでよいのであれば、わざわざ自炊まではしませんが、かといってすべて手入力するわけにもいきません。このような場合、カメラ付きのスマホにインストールされたスキャナアプリを使うと目的とするテキストデータを手早く得ることができます。

スキャナアプリを使ったテキストデータ化の手順

1. スキャナアプリで文字列を撮影

後で実行されるOCRの精度を上げるため、通常のカメラ撮影ではなくスキャナアプリ(ここではCamScanner)を使って目的とする文字列を撮影します。撮影画像に不要なものが映り込んでいれば、トリミング等によりここで除去しておきます。

撮影画像

トリミング

スキャン画像

2. スキャン画像をJPG形式でDropboxにアップロード

次に、スキャナアプリで取得した画像をたとえばDropboxを介してPCに転送します。ここではJPG形式を選びます。

Screenshot 2014 07 01 22 39 38

Screenshot 2014 07 01 22 39 47

3. JPG画像をGoogle Driveにアップロード

PCにJPG画像が転送されると、今度はそれをGoogle Driveにアップロードします。まず、ウェブブラウザでGoogle Driveにアクセスし、作成ボタン横の「↑」ボタンをクリックし先程のJPG画像を選択します。すると、アップロード設定を行うダイアログが表示されますので、そこにあるチェックボックスすべてにチェックを入れ、ドキュメントの言語として適切なものを選択した上で、「アップロードを開始」ボタンをクリックします。

スクリーンショット 2014 07 01 22 37 39

スクリーンショット 2014 07 01 22 20 59

4. 生成された文書ファイルからテキストデータをコピー

JPG画像がGoogle Driveにアップロードされてからしばらくすると、マイドライブ内にJPG画像ファイルと同名の文書ファイルが生成されます。この文書ファイルには、先程アップロードされたJPG画像の他に、その画像からOCR抽出されたテキストデータが含まれています。このテキストデータ全体をコピペすれば作業完了です。

文書ファイル

文書ファイルの中身

テキストデータの選択

結果物

上記手順で取得したテキストデータは次の通り。Google Books N-gram Viewerなどを公開しているGoogle。さすがにOCR精度は高いです。

スキャン画像

スキャン画像

得られたテキストデータ

テキストデータ

 -Text

  関連記事

Markdown環境整備(Emacs markdown-mode & Marked 2)