印刷された文字列を手早くテキストデータ化する方法

      2015/01/01

イメージスキャナでスキャン?

紙に印刷された文字列をテキストデータにする場合、スキャナで取得した文字入り画像に対してOCRをかけるのが一般的だと思います。紙の書籍内の文字列をすべてデータ化したい場合は、書籍を裁断しそれをスキャナで高速にスキャンするいわゆる「自炊」をすることになります。

しかし、書籍内のたった1,2ページ程度の文字列を取得するだけでよいのであれば、わざわざ自炊まではしませんが、かといってすべて手入力するわけにもいきません。このような場合、カメラ付きのスマホにインストールされたスキャナアプリを使うと目的とするテキストデータを手早く得ることができます。

スキャナアプリを使ったテキストデータ化の手順

1. スキャナアプリで文字列を撮影

後で実行されるOCRの精度を上げるため、通常のカメラ撮影ではなくスキャナアプリ(ここではCamScanner)を使って目的とする文字列を撮影します。撮影画像に不要なものが映り込んでいれば、トリミング等によりここで除去しておきます。

撮影画像

トリミング

スキャン画像

2. スキャン画像をJPG形式でDropboxにアップロード

次に、スキャナアプリで取得した画像をたとえばDropboxを介してPCに転送します。ここではJPG形式を選びます。

Screenshot 2014 07 01 22 39 38

Screenshot 2014 07 01 22 39 47

3. JPG画像をGoogle Driveにアップロード

PCにJPG画像が転送されると、今度はそれをGoogle Driveにアップロードします。まず、ウェブブラウザでGoogle Driveにアクセスし、作成ボタン横の「↑」ボタンをクリックし先程のJPG画像を選択します。すると、アップロード設定を行うダイアログが表示されますので、そこにあるチェックボックスすべてにチェックを入れ、ドキュメントの言語として適切なものを選択した上で、「アップロードを開始」ボタンをクリックします。

スクリーンショット 2014 07 01 22 37 39

スクリーンショット 2014 07 01 22 20 59

4. 生成された文書ファイルからテキストデータをコピー

JPG画像がGoogle Driveにアップロードされてからしばらくすると、マイドライブ内にJPG画像ファイルと同名の文書ファイルが生成されます。この文書ファイルには、先程アップロードされたJPG画像の他に、その画像からOCR抽出されたテキストデータが含まれています。このテキストデータ全体をコピペすれば作業完了です。

文書ファイル

文書ファイルの中身

テキストデータの選択

結果物

上記手順で取得したテキストデータは次の通り。Google Books N-gram Viewerなどを公開しているGoogle。さすがにOCR精度は高いです。

スキャン画像

スキャン画像

得られたテキストデータ

テキストデータ

 -Text

  関連記事

no image

Markdown覚え書き

Markdown記法例 “0. “から始めれば、順序付きリストに(数字の振り

markdown-mode.png

Markdown環境整備(Emacs markdown-mode & Marked 2)

markdown-mode レバレッジ特許翻訳講座のノートをMarkdown記法でとることにしました

evernote_logo_center_4c-lrg.png

特許翻訳者向けの文書型データベース

知子の情報 レバレッジ特許翻訳講座のビデオセミナー0027では、管理人さん一押しの文書型データベース

no image
レバレッジ特許翻訳講座S1コース

結局、私は「レバレッジ特許翻訳講座S1コース」を1ヶ月半で離れました。理由は2つあります。 (1)当

FontSize
TradosやWord上で自分の訳文を見直すとき

TradosやWord上で自分の作成した翻訳文を見直すときは、翻訳中に設定していたフォントサイズより

DSC_2787
作業環境(2015/1/15現在)

ハードウェア 種別 名称 メモ PC 15インチMacBook Pro Retina(Late 20

SDL_Trados_Studio_2014.png
おすすめのTrados Plugin (1)

Tradosのメモリには言語の方向性(ソース言語→ターゲット言語)が定義されています。このため、日英

no image
本年はありがとうございました。

今年の6月から特許翻訳者になるための準備を開始し(まずは環境面から)、7月に入ってから講座や書籍やネ