Python 圖片文字識(shí)別的實(shí)現(xiàn)之PaddleOCR
什么是OCR?
光學(xué)字符識(shí)別(Optical Character Recognition, OCR),是指對(duì)文本資料的圖像文件進(jìn)行分析識(shí)別處理,獲取文字及版面信息的過程。簡(jiǎn)而言之,檢測(cè)圖像中的文本資料,并且識(shí)別出文本的內(nèi)容。
那么有哪些應(yīng)用場(chǎng)景呢?
其實(shí)我們?nèi)粘I钪刑幪幎加衞cr的影子,比如在疫情期間身份證識(shí)別錄入信息、車輛車牌號(hào)識(shí)別、自動(dòng)駕駛等。我們的生活中,機(jī)器學(xué)習(xí)已經(jīng)越來越多的扮演著重要角色,也不再是神秘的東西。
OCR的技術(shù)路線是什么呢?
ocr的運(yùn)行方式如下圖,輸入->圖像預(yù)處理->文字檢測(cè)->文本識(shí)別->輸出。
本文主要是介紹一個(gè)博主使用的比較好的OCR開源項(xiàng)目,在這里分享給大家——PaddleOCR。
項(xiàng)目Github地址: PaddleOCR地址
我會(huì)按照剛接觸的狀態(tài),梳理一下驗(yàn)證使用該項(xiàng)目的過程。
項(xiàng)目使用
先把項(xiàng)目從github上clone下來,慢慢分析。
項(xiàng)目結(jié)構(gòu)
首先我們看一下項(xiàng)目的構(gòu)造。
發(fā)現(xiàn)項(xiàng)目有中文的介紹說明,這就很方便了,點(diǎn)開按照官方的說明開始操作。
環(huán)境部署
點(diǎn)開README.md,,可以從文檔教程中看到第一步就是教你如何安裝環(huán)境。
由于內(nèi)容過多,我就做個(gè)概括,方便大家直接上手。
1、安裝Anaconda,構(gòu)造虛擬環(huán)境
這里可以參考我的另一篇文章,里面很詳細(xì):Python 機(jī)器學(xué)習(xí)第一章環(huán)境配置圖解流程
官方給的是python3.8的虛擬環(huán)境,我們也構(gòu)造一個(gè),打開Anaconda Prompt。
輸入命令:
conda create -n paddle_env python=3.8
激活環(huán)境:
conda activate paddle_env
2、依賴包下載
paddlepaddle安裝
pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
layoutparser安裝
pip3 install -U https://paddleocr.bj.bcebos.com/whl/layoutparser-0.0.0-py3-none-any.whl
Shapely安裝,這個(gè)需要下載,下載地址:Shapely下載地址
我選的是這個(gè)
安裝命令:
pip install Shapely-1.8.0-cp38-cp38-win_amd64.whl
paddleocr安裝
pip install paddleocr -i https://mirror.baidu.com/pypi/simple
好的,環(huán)境有點(diǎn)多,都安裝好了就開始上手使用吧。
測(cè)試代碼
官方給出了兩種模式,一是命令行執(zhí)行,一是代碼執(zhí)行。為了直觀的看到配置,我這里使用的是代碼模式。
準(zhǔn)備一張帶文字的圖片
測(cè)試代碼如下
#!/user/bin/env python # coding=utf-8 """ @project : ocr_paddle @author : huyi @file: test.py @ide : PyCharm @time: 2021-11-15 14:56:20 """ from paddleocr import PaddleOCR, draw_ocr # Paddleocr目前支持的多語(yǔ)言語(yǔ)種可以通過修改lang參數(shù)進(jìn)行切換 # 例如`ch`, `en`, `fr`, `german`, `korean`, `japan` ocr = PaddleOCR(use_angle_cls=True, use_gpu=False, lang="ch") # need to run only once to download and load model into memory img_path = './data/2.jpg' result = ocr.ocr(img_path, cls=True) for line in result: # print(line[-1][0], line[-1][1]) print(line) # 顯示結(jié)果 from PIL import Image image = Image.open(img_path).convert('RGB') boxes = [line[0] for line in result] txts = [line[1][0] for line in result] scores = [line[1][1] for line in result] im_show = draw_ocr(image, boxes, txts, scores, font_path='./fonts/simfang.ttf') im_show = Image.fromarray(im_show) im_show.save('result.jpg')
代碼說明
1、因?yàn)槲业碾娔X沒有顯卡,所以設(shè)置了use_gpu=False。
2、顯示結(jié)果部分會(huì)將識(shí)別的文字用框標(biāo)出來,并且展示識(shí)別的結(jié)果。
驗(yàn)證一下
我們看到,打印的內(nèi)容有識(shí)別出來的每句話所在的圖片位置,以及識(shí)別結(jié)果和可信度。而上面的結(jié)果圖中,將每句話對(duì)應(yīng)的文字都框了出來。效果很不錯(cuò)!
參數(shù)補(bǔ)充
官方還給出了一些參數(shù),可以調(diào)整輸出的內(nèi)容??梢詤⒖磓uickstart.md文件。參數(shù)補(bǔ)充:
- 單獨(dú)使用檢測(cè):設(shè)置`--rec`為`false`
- 單獨(dú)使用識(shí)別:設(shè)置`--det`為`false`
官方還提供一個(gè)標(biāo)準(zhǔn)的json結(jié)構(gòu)輸出數(shù)據(jù)
PP-Structure的返回結(jié)果為一個(gè)dict組成的list,示例如下
```shell
[{ 'type': 'Text',
'bbox': [34, 432, 345, 462],
'res': ([[36.0, 437.0, 341.0, 437.0, 341.0, 446.0, 36.0, 447.0], [41.0, 454.0, 125.0, 453.0, 125.0, 459.0, 41.0, 460.0]],
[('Tigure-6. The performance of CNN and IPT models using difforen', 0.90060663), ('Tent ', 0.465441)])
}
]
```
總結(jié)
總的來說,這個(gè)項(xiàng)目還是很有意思的,訓(xùn)練的部分我就不多贅述了,畢竟準(zhǔn)備數(shù)據(jù)挺麻煩的?;仡^我再想想這個(gè)項(xiàng)目可不可以魔改成好用的工具。
分享:
我們根本不需要最后的落腳點(diǎn),只要不斷前進(jìn)就好了,只要不停下,道路就會(huì)不斷延伸?!哆M(jìn)擊的巨人》
如果本文對(duì)你有幫助的話,請(qǐng)不要吝嗇你的贊,謝謝!
到此這篇關(guān)于Python 圖片文字識(shí)別的實(shí)現(xiàn)之PaddleOCR的文章就介紹到這了,更多相關(guān)Python 文字識(shí)別內(nèi)容請(qǐng)搜索本站以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持本站!
版權(quán)聲明:本站文章來源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請(qǐng)保持原文完整并注明來源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像,否則將依法追究法律責(zé)任。本站部分內(nèi)容來源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來,僅供學(xué)習(xí)參考,不代表本站立場(chǎng),如有內(nèi)容涉嫌侵權(quán),請(qǐng)聯(lián)系alex-e#qq.com處理。