納税書類をデジタル化!実用可能な品質のデータをOCRで取得(AI×経済)【論文】

   

埋没しているデータ資産の活用

今日のデータ主導型の時代において、企業が競争優位性を獲得するためには、効率的かつタイムリーにデータを活用することが不可欠だ。しかし、多くの組織のデータ資産のほとんどが、半構造化または非構造化フォーマットであり、すぐに活用するのが難しい。

そこで、画像の中の文字をテキストデータに変換するOCR(光学式文字認識)技術を用いることで、データ資産をうまく活用できることが期待されている。ただし、読み取り結果は完璧ではなく、その結果を修正する処理技術を行う必要性がある。

アメリカにあるアーカンソー大学のC. d. Jagerら研究者は、OCR技術の実用に際しては品質を検証および強化する必要があるという課題に着目し、納税証明書の画像をOCRでテキストデータ化し、3通りの処理方法を試した。結果、画像から正確で使用可能なデータを自動的に取得できることが証明された。

OCRで読み込んだテキストを使えるデータに加工する

C. d. Jagerらの研究のポイントは以下の通りだ。

続きを読むには無料会員登録が必要です。


※ログイン/初回登録後、下記ボタンを押してください。

業界から探す

さらに学ぼう!

PAGE TOP