読み辛さの極み「古代文書」をＡＩは解読できるか（AI×アート）【論文】

★AIDB会員限定Discordを開設いたしました！ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします！↓

歴史的な文書の文字認識はハードルが高い

歴史的な手書き文書画像のデジタル化や文字起こしは、文化遺産の保存にとって重要だ。

こうした文書の自動文字起こしは、従来は光学モデル、辞書、および言語モデル（LM）で構成される手書き文字認識（HTR）システムによって実行されてきた。ただし、HTRシステムは、画像と言語のモデリングの面でいくつかの課題に直面している。

歴史的な文書画像には、インクの経年変化、手書き文字の変動性、にじみによる欠陥が含まれる場合がある。また、頭文字や長い文字のストロークが装飾として含まれることもある。これは、特に16世紀のスペイン語文書に当てはまる。さらに、古代のテキストには珍しい文字、文法、単語の綴り、現代のものとは異なる固有表現も含まれている。このような形式は、語彙外（OOV）単語、すなわちHTRシステムの辞書に属さない単語となる。画像、言語の両方の面でHTRシステムを改善することは、こうした古代の歴史的文書を認識する上で重要となる。

AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

スペインにあるバレンシア大学のE. Granellら研究者は、古代の文字形式と言語に対処できる効率的なHTRシステムを設計するために、3つの新たな手法を用いて文字認識に取り組んだ。結果、CRNNが他2つの手法と比べてより良い結果を出した。

【法人向け】課題に応じた先行研究を知りたい企業さま向けに、「先行研究調査サービス」を提供しています！サービスの概要はこちらから！

3つの手法で古代スペイン語文書の文字起こしに挑戦

E. Granellらの研究のポイントは以下の通りだ。

本記事を読むにはAIDBのアカウントが必要です。

※ログイン/初回登録後、下記ボタンを押してください。

■サポートのお願い

AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

伝統産業もＡＩ化できるか。発電工程をデジタル・アーカイブ（AI×環境）【論文】

【論文実装】今週取り組むべき5本（2020年3月第3週版）量子機械学習、登場ー。

AIDB