딥러닝 공부

SW AI 창업 경진대회 관련 논문 리서치

JaeHyunShin 2020. 8. 17. 15:48

OCR 기능 관련한 딥러닝 모델 구현해보기

 

CRNN paper로 알려진 Baoguang Shi 의 ‘An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition’ 

https://arxiv.org/abs/1507.05717  공모전에 올릴 것

 

An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

Image-based sequence recognition has been a long-standing research topic in computer vision. In this paper, we investigate the problem of scene text recognition, which is among the most important and challenging tasks in image-based sequence recognition. A

arxiv.org

1. CNN 통해 input 이미지로부터 feature sequence를 추출한다.

2. 추출한 feature sequence들을 RNN의 input으로 하여 이미지의 텍스트 시퀀스를 예측한다.

3. 예측된 텍스트 시퀀스를 텍스트로 변환한다.

 

 

OCR 모델은 크게 문자탐지와 문자인식으로 구성되고 이 둘을 따로 구분하지 않고, end to end 방식으로 연결해서 진행하는 방식이 있다.

 

문자탐지, Text Detection은 실제로 어려움이 있다. 

쉽게 말해서, 글자로 인식해야 할 것을 글자로 인식하지 못하고, 글자로 인식하지 못해야 하는 것을 글자로 인식한다는 것이다.

 

'딥러닝 공부' 카테고리의 다른 글

Mendeley 논문 관련 정리  (0) 2021.01.02
케글 상위 커널들이 ConvNet을 짜는 원리-transfer Learning  (0) 2020.07.29
securelayer공부  (0) 2020.07.27