티스토리 뷰
목차
반응형
경매장 숫자 인식이 제대로 되는 것을 확인함.
문제는 단위 표시 ,를 .으로 인식한다. 예를 들어 "3,000,000"을 "3.000.000"으로 인식
아래 링크로 들어가서 tesseract를 다운 받으면 된다.
https://github.com/tesseract-ocr/tesseract/wiki
tesseract-ocr/tesseract
Tesseract Open Source OCR Engine (main repository) - tesseract-ocr/tesseract
github.com
- 사용법
- 참고 사이트
Python에서 Tesseract 사용하기 for OCR
Tesseract 이미지로부터 텍스트를 인식하고, 추출하는 소프트웨어를 일반적으로 OCR이라고 한다. Tesseract는 1984~1994년에 HP 연구소에서 개발된 오픈 소스 OCR 엔진이며, 현재까지도 LSTM과 같은 딥러닝 방식을 통해 텍스트 인식률을 지속적으로 개선하고 있다. 지금부터 Python 환경에서 Tesseract를 이용하여 이미지로부터 텍스트 추출하는 방법을 소개한다.
junyoung-jamong.github.io
반응형