딥러닝 공부

SW AI 창업 경진대회 관련 논문 리서치

JaeHyunShin 2020. 8. 17. 15:48

OCR 기능 관련한 딥러닝 모델 구현해보기


CRNN paper로 알려진 Baoguang Shi 의 ‘An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition’ 

https://arxiv.org/abs/1507.05717  공모전에 올릴 것


An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition

Image-based sequence recognition has been a long-standing research topic in computer vision. In this paper, we investigate the problem of scene text recognition, which is among the most important and challenging tasks in image-based sequence recognition. A


1. CNN 통해 input 이미지로부터 feature sequence를 추출한다.

2. 추출한 feature sequence들을 RNN의 input으로 하여 이미지의 텍스트 시퀀스를 예측한다.

3. 예측된 텍스트 시퀀스를 텍스트로 변환한다.



OCR 모델은 크게 문자탐지와 문자인식으로 구성되고 이 둘을 따로 구분하지 않고, end to end 방식으로 연결해서 진행하는 방식이 있다.


문자탐지, Text Detection은 실제로 어려움이 있다. 

쉽게 말해서, 글자로 인식해야 할 것을 글자로 인식하지 못하고, 글자로 인식하지 못해야 하는 것을 글자로 인식한다는 것이다.


'딥러닝 공부' 카테고리의 다른 글

Mendeley 논문 관련 정리  (0) 2021.01.02
케글 상위 커널들이 ConvNet을 짜는 원리-transfer Learning  (0) 2020.07.29
securelayer공부  (0) 2020.07.27