O que é OCR?

<< Click to Display Table of Contents >>

Navigation:  Gestor de Documentos > Relação de documentos digitais cadastrados > Reconhecer documentos (OCR) >

O que é OCR?

 

Reconhecimento Óptico de Caracteres, ou OCR, é uma tecnologia que permite converter tipos diferentes de documentos, como papeis escaneados, arquivos em PDF e imagens capturadas em dados pesquisáveis e editáveis.
 

QUAL TECNOLOGIA ESTá POR TRÁS DO OCR?

 

Os mecanismos exatos que permitem aos seres humanos reconhecer objetos ainda estão para serem entendidos, porém, os três princípios básicos são bem conhecidos pelos cientistas – integridade, fim e adaptabilidade (IPA*). Esses princípios constituem o centro do Trend GED permitindo que ele replique reconhecimento natural como o ser humano.

 

COMO O TREND GED  RECONHECE TEXTO?

 
Primeiro, o software analisa a estrutura da imagem do documento. Ele divide a página em elementos como blocos de texto, tabelas, imagens, etc. As linhas são divididas em palavras e, então, em caracteres. Uma vez separados os caracteres, o programa compara-os com um conjunto de imagens padrão. Ele avança inúmeras hipóteses sobre esse caractere. Com base nessas hipóteses, o programa OCR analisa variantes diferentes de quebra de linhas em palavras e palavras em caracteres. Após processar um enorme número de tais hipóteses prováveis, o programa finalmente age e toma uma decisão, apresentando o texto reconhecido.