Webマーケティング

コンテンツマーケティングとは?マーケティング・・・
2020.10.09
TRASPコラム
Webマーケティング
・画像データをテキストにしてデータベース化したい
・PDFからテキストを抜き出して編集したい
こういった場面はビジネスではよく見られます。画像やPDFといったファイルからテキストを抽出するには「OCR(光学文字認識)」が使えるソフトウェアやWebサービスなどを利用する必要がありますが、「Googleドライブ」にもOCR機能が搭載されています。
「とりあえずすぐOCRをパソコンから試したい」という方は、Googleドライブを持っていれば数ステップだけですぐにファイルからテキストを抜き出して表示可能です。
今回はGoogleドライブのOCR機能が気になる方向けに、Googleドライブ自体のメリットも含めてGoogleドライブのOCRを使う方法や精度などを解説していきます。
目次
GoogleドライブとはGoogleが提供しているオンラインストレージです。Googleアカウントを持っていればパソコン上からWebブラウザーでアクセスしてすぐ利用できるようになります。
Googleドライブには次のようなメリットがあります。
・無料で一通りのOfficeサービスが利用できる
・Microsoft Officeにはない独自機能が搭載されている
・15GBまで無料でデータを保存し放題
・その場ですぐファイル内容を共有可能
・アプリをインストールすればスマホでも使える
・拡張性があり、課金するとさらに利便性が増す
Googleドライブには
・表計算ができるGoogleスプレッドシート
・文書作成ができるGoogleドキュメント
・資料作成に使えるGoogleスライド
・アンケート作成に使えるGoogleフォーム
などが搭載されています。特に「Googleスプレッドシート」や「Googleドキュメント」は利用頻度が高く役立つツールです。
各スプレッドシートやドキュメントなどで作ったファイルはGoogleドライブ内にリアルタイム保存されるため、データが紛失する心配がありません。オフライン上でも一時的にローカル上にデータが保存されて、オンラインになるとすぐオンライン保存されるので安心です。
しかもスプレッドシートやドキュメントで作成したファイルは「xlsx」や「docx」といった形式にも出力可能で、「Microsoft Office」といった他ソフトウェアでもすぐ利用できます。逆にMicrosoft OfficeなどのOfficeソフトウェアで作ったファイルをGoogleドライブで開いて編集することも可能です。
汎用性が高く活用範囲が広いのはGoogleドライブの大きなメリットです。
GoogleドライブにはMicrosoft Officeにはない独自機能が搭載されています。
たとえばショートカットキーもMicrosoft Officeに存在しないものが多数存在しています。またGoogleスプレッドシートの場合はURLから画像を自動表示するといった関数が利用可能であり、インターネット上からデータを収集しながらスプレッドシートを作成する際に活用可能です。
Googleドライブ内のOfficeソフトは、Microsoft Officeの単なる互換ソフトウェアではありません。このため独自の使用を理解しながら使うことで、Microsoft Officeとも連携しながら独自の使い方ができるようになり作業効率が向上する可能性もあります。
Googleドライブは15GBまで無料でデータを保存できます。そのため少量のデータ保管だけで済む業種の場合は、無料プランだけでも十分ビジネスにGoogleドライブを活用可能です。
最近少し改悪が発生しており、「Googleフォト」も15GBの容量の中に含まれるようになったのが痛いです。Googleフォトには以前圧縮込みで無制限にデータを保存できましたが、不可能になりました。ただし15GBという容量は画像や動画を大量に保存しない限りなかなかなくならないので、ビジネス文書の管理がGoogleドライブ利用のメインになっている場合は気にする場面が少ないかと思います。
検索機能についても
・共有アイテムから他アカウントと共有しているフォルダ・ファイルを確認
・最近使用したアイテムから最新フォルダ・ファイルを確認
・スター付きから重要なフォルダ・ファイルを確認
・ゴミ箱から間違って削除したフォルダ・ファイルを探す
・PDF、ドキュメントなどファイル形式から探す
・条件キーワードを入力して探す
といった豊富な機能が搭載されており、自分に合った方法ですぐ目的のファイルを探せるようになっているのもメリットです。
Googleドライブはクラウドサービスとして、他メンバーとのデータ共有についても強みがあります。
「ファイル」タブの「共有」メニューから共有したいメールアカウントを選択してメッセージを沿えれば、すぐにメール宛に通知が来てアクセスURLが共有されます。またリンクを発行して教えれば、複数のメンバーにまとめてファイルを閲覧してもらうことも可能です。
権限もその場で変更できるので、編集可能、閲覧のみといった権限をその場で適切に付与しながら共有ができるのもメリットです。共有したアイテムはリアルタイムで編集が可能であり、権限を持っている方は他メンバーとメッセージのやり取りをしながらスムーズにデータを完成させられます。
Googleドライブはパソコンだけのサービスではありません。専用のGoogleドライブアプリをiPhoneやAndroidスマホなどにインストールすればスマホでも使えるようになります。Googleドライブアプリだけでも共有機能やコピーの作成、データのダウンロードなどが可能です。
さらにGoogleドキュメントアプリといった各種アプリを追加インストールすれば、スマホでもファイルを編集して作業ができるようになります。モバイルワークを導入している場合は、外出先でも簡単にデータ内容を確認して細かい訂正が可能です。スマホなので根本的な編集作業には使いにくいですが、簡単な編集や内容確認などに使うには十分な機能がアプリには搭載されています。
Googleドライブが無料版のままだと使いにくいと感じる場合は、課金をすれば機能が拡張されます。
具体的には
・100GB利用:250円/ユーザー/月
・200GB利用:380円/ユーザー/月
・2TB利用:1,300円/ユーザー/月
・10TB利用:1万3,000円/ユーザー/月
・20TB利用:2万6,000円/ユーザー/月
・30TB利用:3万9,000円/ユーザー/月
といったプランが用意されており、最大5人まで他メンバーを招待してストレージ容量を共有できるようになっているので無駄がありません。
またGoogleのビジネス向けクラウドサービス「Google Workspace」へ登録すると、容量無制限も選べるようになっています。事業の規模に合わせて柔軟に容量を拡大したりできるのは、Googleドライブのメリットです。
OCRとは「画像データやPDFなどのデータからテキストを抜き出して表示する」ための技術です。現在では個人用途でも、OCRの利用範囲が増えています。
OCRの利用者が増加しているのは、精度向上が理由になっています。以前は
・テキストが記載されている箇所を指定する必要がある
・テキストが活字である必要がある
といった制限があり、利用には時間の掛かる技術でもあったので広まるには無理がありました。しかし現在では特に「AI(人工知能)」の活用によりテキストを自動判別して抜き出してくれるようになっています。また人間の手書きデータの学習により、くせのある文字にも余裕で対応できるようになりました。
結果的に今ではスマホアプリでも手軽にOCRを利用できるようになっています。OCRツールを利用すると次のようなメリットがあります。
・テキスト編集の手間を減らせる
・ペーパーレスを推進できる
・データの共有が簡単になり、属人化を防げる
たとえば紙の資料を1から見ながら手入力する場合、1文字1文字読み通りに入力するのはストレスが掛かります。また単純作業なので時間も無駄になるのがネックです。
しかしOCRを使えばまず自動で文字起こしをした後に変な個所を編集するだけで文字入力が済みます。完全に自動化されるわけではありませんが、近年では文字の読み取り精度が上がっているのでたとえ手書きの文字だとしてもデジタルデータにして作業が可能です。
普段の作業にOCR作業を取り入れるだけで、作業工数が一気に減って時間が無駄にならなくなります。空いた時間はより重要な作業に回せるので会社の収益改善にもつながるのがポイントです。OCRは作業効率化にも効果があります。
OCRで紙の書類をデジタルデータ化すると、あらゆる書類をパソコンやスマホなどで簡単に管理して取り出せるようになります。紙の書類をデジタルデータ化して管理すると「ペーパーレス」を推進可能です。
ペーパーレスは政府も積極的に取り組んでいる施策であり、紙のやり取りをなくしてコストを削減しながら、デジタル上で簡単にデータを管理できるようにするのが目的となります。ペーパーレスの先にはデジタル基盤でビジネスや組織が動くようになる「DX(デジタルトランスフォーメーション)」があります。
DXの第一歩としてOCRによる紙書類のデジタル化は大きな効果をもたらすのがポイントです。将来的には最初からデジタルデータで全部の書類を管理できるようになるのが好ましいですが、現時点では紙書類をデジタルデータにしながら効率のよい管理を目指すのが現実的です。
OCRにして紙の書類をデジタルデータ化すると、データの共有が簡単になります。パソコンやスマホから検索をするだけで誰でもすぐ該当の情報にアクセスできるようになるのがポイントです。
紙の書類をベースにビジネスをしていると、「指定の人だけ書類を持っており、会社を辞めたとたんに場所が分からなくなり活用できない」というトラブルが発生する可能性があります。紙の書類を資産として考えると、情報が失われるのは会社の業績にも悪影響を与えてしまいます。
しかしOCRで紙の書類をデジタル化しておくと、万が一書類自体がなくなってもデジタルでデータが残っているので資産が消えません。誰でも簡単に書類へアクセスできるようにすることで作業が平準化され、むらがなくなります。
ここからは実際に、GoogleドライブでOCRを使う方法を解説していきます。
1.OCRでスキャンしたいファイルを用意する
2.Googleドライブから該当のファイルを探してドキュメントで開く
3.結果を確認する
まずはOCRでスキャンしたいファイルを用意します。用意ができたらGoogleドライブを開いて指定のファイルをアップロードしてください。
事前にフォルダを作ってからそこにファイルを入れれば、後で検索するときに無駄がありません。またファイルの種類が分かっていれば、検索窓でファイル種類を選択してすぐ該当のファイルを表示可能です。
次に該当のファイルを探して右クリックします。そして「アプリで開く」→「Googleドキュメント」とたどってください。
Googleドキュメントをクリックすると自動でOCR検出が始まりますが、ここで1つ注意点があります。画像のデータ容量や内容、インターネット接続状況などに応じては検出に時間が掛かる可能性があります。時間が掛かる場合はゆっくり慌てずに待ちましょう。
最後に検出された結果がGoogleドキュメントで表示されるので、結果を確認してみます。
画像からOCRでテキストを抽出した場合は、上記画像のようにまず画像が上部に表示され、それから下部に抜き出したテキストの内容が表示されるようになっています。どの原本にOCRを掛けたかが分かるので便利です。そのままテキストを編集して保存して、検索できるように準備するのもよいでしょう。
ここからはGoogleドライブのOCR機能でどこまで文字を抜き出せるのか、懸賞を行っていきます。
・横書きのテキスト
・縦書きのテキスト
・ビジュアル要素付きのテキスト
・手書きのテキスト
・表のテキスト
横書きのテキストをOCR機能でテキスト抽出してみると次のようになります。
改行していましたが1行にまとまってしまいました。しかし文字についてはすべてきれいに抜き出せており、精度は100%です。改行を行えばパソコンで作った文書の画像データについては再びデジタルデータとして使えるようになりそうです。
日本語では縦書きのテキスト画像データもよく見ます。実際にGoogleドライブで縦書きのテキストを読み取ってみると、次のような結果になりました。
きれいに読み取れていますが、注意したいのは縦書きから横書きへ変換されてしまうことです。Googleドライブでは縦書き機能が現在搭載されておらず、縦書き文書をOCRでテキスト抽出した場合は自動で横書き表示になってしまいます。ですからGoogleドライブでいったん横書き表示として抜き出した後、無料のツールで縦書き表示にテキストを直したりという手間は発生します。
しかし精度が高いので文字の編集にはあまり手間取らないで済みそうです。
次は画像からビジュアル要素つきのテキストを直接抜き出してみます。利用するのは無料素材サービスに合ったGoogleの看板が目立つ画像です。
結果としては、Googleの文字は大きいだけあってきれいに表示されました。ただし薄緑で抽出されたので、ビジネスで使うには色を変更する必要があると感じます。また周辺にある文字もある程度抜き出してくれましたが、細かい文字まではさすがに判読できずに表記ゆれや文字抜けなどが発生していたのもポイントです。
総評すると大きいビジュアル要素付きのテキストは簡単に抜き出せますが、色が含まれている場合はテキストも色付き表示されるので変更する、小さい文字は判読できずに表記が違ったり抜けたりする点などに注意して使うとよいでしょう。
次に鬼門となる手書きのテキストをOCR抽出していきます。少し汚く見えますが、わら半紙の切れ端に私の文字を書いてGoogleドライブにアップロードしてみました。
結果としては、「OCRのテスト」という部分まではきれいに読み取れていました。決して字がきれいなほうではありませんが、間違えずに抜き出されていたので驚いています。ただし「です。」の部分は影が掛かっていたのもあってか、きれいに抜き出せていませんでした。
影が掛かっていないきれいな写真をアップロードすれば、すべての文字を抜き出せる可能性は高そうです。しかし明るさが足りないと今回のように文字化けして文字が抜き出されてしまう可能性もあるので、必要な個所は訂正するようにしましょう。
次は表のテキストを中手してみました。Googleドキュメントで作った表を画像にして、OCRで抜き出してみます。
結果としては残念ながら、1文字もきれいに抜き出せませんでした。表の線が邪魔をしている可能性もあります。青く反転しているのが原因かと思い反転なしで表を拡大してもう一度OCRに掛けましたが、結果は同じでした。
Googleドライブで表に関する画像をOCR変換する場合は、テキストがきれいに抜き出せているかしっかり確認しておきましょう。
GoogleドライブのOCR機能はテキストに画像やPDFを変換するだけではありません。OCRによる画像やPDFの自動認識にも対応しているのがポイントです。
たとえば「OCR検出機能」と検索をすると、先ほどのOCR変換後のテキストだけでなく基の画像もヒットします。実を言うと今文章を書くまで機能を知らなかったのですが、参考情報を基に検索をしてみると本当に画像も検出されたので驚きました。つまりテキストを変換する作業を行わなくても、Googleドライブは画像をアップロードした時点でOCRの自動認識を使って文字を判別していたということになります。
たとえばスマホで撮影した写真をGoogleドライブへ共有すれば、すぐGoogleドライブ上で文字検索して対象のファイルを見つけ出せます。データベースとして内容を確認するだけであれば、フォルダに画像やPDFを整理するだけでテキスト変換を行わずにファイルを有効活用可能です。
ここからはGoogleドライブ以外にもビジネスに活用できるOCRサービスをまとめていきます。
・Evernote
・OneNote
・Adobe Acrobat DC
・読取革命
・Free Online OCR
・Convertio
・LINE
・OfficeLens
・Adobe Scan
・Google Keep
・ClipOCR
電子ノートとして代表的な「Evernote」には、文章として認識したデータを自動で判別してOCR処理してくれる機能が搭載されています。
キーワード検索の際は画像やPDFなどの内部文字を入力すれば、すぐに対象を検索して内容を調査できるので便利です。データベースとして画像やPDFを管理したいときは手間が掛からないので使えます。
ただし内部テキストを編集したいときには、Googleドライブといった他社サービスを利用する必要が出てきます。また認識も完ぺきではない点に注意してください。
「OneNote」はMicrosoft社が提供する電子ノートサービスです。
画像を貼り付けて「画像からテキストをコピー」メニューをクリックすると、画像の下に文字が抜き出されて表示されます。仕組みとしてはGoogleドライブに似ています。
「Microsoft Officeなどと連携させながらOCR機能を使いたい」という場合は、Microsoft社純正のOneNoteのほうが利用に向いているでしょう。
「Adobe Acrobat DC」はPDF開発元の「Adobe」公式のPDF編集・閲覧用ソフトウェアです。
クリックだけでPDFからテキストを認識させられます。カスタムフォントを利用したテキストの追加など、高度なPDF編集機能も備わっています。「PDFを編集する機会が多い」という方にはおすすめできるソフトウェアです。
OCR読み取りに特化したソフトウェアです。オリジナルの読み取り辞書データベースなどを利用して文字を抜き出す仕組みになっており、
・訂正線付きの文字
・影が付いている文字
・下線が付いている文字
・くせのある手書き文字
など各種文字をプレーンテキストとして認識して取り出せます。また「PDF書類のレイアウトのまま、Excelへ書類を変換する」といった用途にも使えるのがポイントです。
GoogleドライブといったサービスではOCR機能が限定的ですが、有料である分読取革命を使うと安定して文字を抜き出して活用できます。「GoogleドライブでOCR機能が使えるのは分かったから、本格的に紙書類をデジタル化してペーパーレスを実現したい」という方にはおすすめです。
無料で使えるWebサービスです。日本語だけでなく中国語といった世界46の言語に対応している幅広さもポイントになっています。
1.ファイルをアップロードする
2.言語を選択する
3.出力形式を選択する
4.コンバートボタンを押す
といった簡単なステップだけですぐ画像やPDFなどからテキストを抜き出せます。
さらにアカウントを作って登録を行うと、
・複数ページのPDFを変換
・大きな画像
・その他の設定を操作できる
といった機能が解放されるのでより使いやすくなるのがメリットです。「無料で多彩な機能のあるOCRサービスを使いたい」という方はぜひ使ってみましょう。
10ファイルまで無料でOCR機能を利用可能です。サインアップして利用すればもっと多くのファイルをコンバートして使えるようになります。
Googleドライブや「Dropbox」と連携させれば、パソコン上にファイルがなくてもその場でファイルをアップロードして変換できるのがメリットです。また
・.doc
・.xlsx
・.pptx
・.txt
といった各ファイル形式に幅広く対応しているので使いやすいのもポイントです。
LINEはメッセージツールとして有名ですが、他にも
・LINE Payで支払いができる
・ビデオ会議ができる
・家計簿を付けられる
・QRコードを読み取ってWebサイトを表示できる
といったように多彩な機能を備えています。そしてOCR機能にも対応しています。
LINE上に画像を貼り付けてテキスト化する文章を範囲指定すると、自動でテキストに変換されて表示されるのがポイントです。また英語の場合は日本語に翻訳できる機能も備わっています。
「いつも使っているLINEで手軽にOCRを使いたい」という場合は、今すぐ試してみましょう。
スマホアプリとして有名なOCRアプリが「OfficeLens」です。読み取り精度はアプリの中でもトップクラスで無料で使える手軽さも人気を集めています。
スマホカメラで撮影した写真から、その場でOCR機能を使ってテキストを抜き出せます。ホワイトボードの手書き文字なども認識可能で、
・Word
・PowerPoint
などへ変換した後OneDriveなどに保存できる機能も便利です。
検索の際も画像内の文字が自動認識されて検索結果にヒットするので効率的です。Microsoftサービスを頻繁に使っている場合は利用したほうがよいでしょう。
Adobeの公式OCRスキャンアプリです。無料ですぐに使えます。
・スキャンしたページをJPEGとして保存
・書類のシミといったノイズデータを除去
・スキャンの色彩補正が可能
といった多彩な機能を備えており、利便性が高いのが特徴です。
またスキャンしてPDFにしたデータは「Adobe Document Cloud」上で共有してすぐ編集ができるのもポイントになっています。
Google純正のメモアプリ「Google Keep」にもOCR機能が搭載されています。
Googleドライブと認識レベルは同じかもしれませんが、スマホだとアプリ上から細かいGoogleドライブの機能を呼び出すのは難しいです。Google Keepがあるとその場でメモを取ってOCR化、テキストとして利用するといった使い方もできます。Googleドライブの補助としてインストールしておいても損はありません。
縦書きについてもOCR認識ができる便利なアプリです。
人工知能搭載なのが特徴になっており、読み取りたい部分を指定する手間は掛かりますがピンポイントに文字の読み取りが可能です。フォルダ機能は搭載されていませんが、ファイル名を一覧から変更して分かりやすく整理することは可能になっています。
今回はGoogleドライブのメリットやOCRのメリット、そしてGoogleドライブでのOCR機能の使い方や他のOCRサービス・アプリもご紹介してきました。
GoogleドライブのOCR機能は、軽いテキスト抜き出しなどには十分利用できます。また自動で文字を判別して検索結果に表示してくれる高度な機能も便利です。
Googleドライブ以外にもたくさんのOCRWebサービス・アプリが存在します。自分に合ったOCRアプリを実際に試しながら探して、ビジネスをペーパーレスに進めてみてください。
2021.01.16