印刷された文字列を手早くテキストデータ化する方法
2015/01/01
イメージスキャナでスキャン?
紙に印刷された文字列をテキストデータにする場合、スキャナで取得した文字入り画像に対してOCRをかけるのが一般的だと思います。紙の書籍内の文字列をすべてデータ化したい場合は、書籍を裁断しそれをスキャナで高速にスキャンするいわゆる「自炊」をすることになります。
しかし、書籍内のたった1,2ページ程度の文字列を取得するだけでよいのであれば、わざわざ自炊まではしませんが、かといってすべて手入力するわけにもいきません。このような場合、カメラ付きのスマホにインストールされたスキャナアプリを使うと目的とするテキストデータを手早く得ることができます。
スキャナアプリを使ったテキストデータ化の手順
1. スキャナアプリで文字列を撮影
後で実行されるOCRの精度を上げるため、通常のカメラ撮影ではなくスキャナアプリ(ここではCamScanner)を使って目的とする文字列を撮影します。撮影画像に不要なものが映り込んでいれば、トリミング等によりここで除去しておきます。
2. スキャン画像をJPG形式でDropboxにアップロード
次に、スキャナアプリで取得した画像をたとえばDropboxを介してPCに転送します。ここではJPG形式を選びます。
3. JPG画像をGoogle Driveにアップロード
PCにJPG画像が転送されると、今度はそれをGoogle Driveにアップロードします。まず、ウェブブラウザでGoogle Driveにアクセスし、作成ボタン横の「↑」ボタンをクリックし先程のJPG画像を選択します。すると、アップロード設定を行うダイアログが表示されますので、そこにあるチェックボックスすべてにチェックを入れ、ドキュメントの言語として適切なものを選択した上で、「アップロードを開始」ボタンをクリックします。
4. 生成された文書ファイルからテキストデータをコピー
JPG画像がGoogle Driveにアップロードされてからしばらくすると、マイドライブ内にJPG画像ファイルと同名の文書ファイルが生成されます。この文書ファイルには、先程アップロードされたJPG画像の他に、その画像からOCR抽出されたテキストデータが含まれています。このテキストデータ全体をコピペすれば作業完了です。
結果物
上記手順で取得したテキストデータは次の通り。Google Books N-gram Viewerなどを公開しているGoogle。さすがにOCR精度は高いです。
スキャン画像
得られたテキストデータ
関連記事
-
特許翻訳者向けの文書型データベース
知子の情報 レバレッジ特許翻訳講座のビデオセミナー0027では、管理人さん一押しの文書型データベース
-
Markdown覚え書き
Markdown記法例 “0. “から始めれば、順序付きリストに(数字の振り