OCRはどのように機能しますか？シンプルでわかりやすい方法で説明

この記事では、OCRの仕組みについて説明します。 OCRは「光学文字認識」の略で、ドイツ語では単にテキスト認識と呼ばれます。これは、コンピューターがOCRを使用してスキャン画像のテキストを認識し、それを単純なテキストドキュメントに変換できることを意味します。

これがOCRの仕組みです

同僚から紙のプレゼンテーションを受け取ったと想像してください。個々のパッセージが気に入らないので、これらをPCで編集したいと思います。それをスキャンして、OCRプログラムに進みます。これで、次のことが起こります。

ソフトウェアは、最初にいわゆるレイアウト分析を行います。これを行うために、彼女はページレイアウトを見て、画像をテキストから分離します。彼女はまた、ページ上での自分の位置に注意します。次に、段落の数がカウントされ、ページ番号などの個々の要素が保存されます。
ここで難しい部分があります。ソフトウェアは個々のテキストブロックを見て、それらを文章に分解します。次に、文は個々の単語に分割され、単語は文字に分割されます。
OCRソフトウェアには、文字と文字のパターンが含まれています。プログラムは、スキャンされた文字とこれらのパターンを比較します。それらが99％類似している場合、アルゴリズムはおそらくその文字である必要があると判断します。短時間で多くのパターンを比較できるため、非常に正確です。このようにして、彼は「8」と「B」をうまく区別しています。
したがって、文字と文字は徐々に認識されます。次に、それらは再び単語として結合され、文の所定の位置に戻されます。ソフトウェアが終了するとすぐに、すべてが通常のドキュメントに保存され、編集できます。やりました！

ソフトウェアの知識をテストしますか？私たちの大きなソフトウェアクイズに参加してください！