1.环境和配置要求
整体是用python实现,所需要使用的第三方库包括aip、pil、keyboard、pyinstaller,如未安装,可在cmd中使用pip install baidu-aip/pillow/keyboard/pyinstaller
指令安装。
百度接口
打开网址,如未注册请先注册,然后登录点击管理控制台,点击左侧产品服务→人工智能→文字识别,点击创建应用,输入应用名称如baidu_ocr,选择用途如学习办公,最后进行简单应用描述,即可点击立即创建。会出现应用列表,包括appid、api key、secret key等信息,这些稍后会用到。
2.具体实现步骤
整个程序的大致思路是,在用截图软件获得截图之后,交给百度接口识别,并返回结果,当然,也可以是本地图片识别,我用的是qq自带截图软件,快捷键ctrl+alt+a
用来打开截图,在选中所截区域后,按enter键即可保存到粘贴板中,也可用其他截图软件。
获取截图
keyboard类库是用来监听键盘动作的,所以在有快捷键按下之后,便会有相应动作。并用pil中的imagegrab来获取到剪切板中的图片并生成本地图片文件。
#1.截图 keyboard.wait('ctrl+alt+a') print('开始截图') keyboard.wait('enter') print('保存截图') time.sleep(0.1) #2.保存图片 image = imagegrab.grabclipboard() image.save('img.png')
调用baidu aip识别并打印文字
先用注册时生成的应用的appid、api key、secret key初始化应用,再读取保存到的图片并打印识别的文字。
with open('img.png', 'rb') as fp: image = fp.read() text_list = client.basicaccurate(image)['words_result'] for text in text_list: print(text['words'])
运行结果如图所示:
我们还可增加一个无限循环使得一直能截图。
调用打包程序生成专属识别文字小程序
用pyinstaller库实现小程序的打包,生成.exe文件,这样就能随时识别文字了。在命令行中用pyinstaller xxx.py
来打包生成exe文件,最后在生成的dist文件夹即可找到xxx.exe文件如下:
最后附上整个源代码:
#引入截图软件,获取文件到本地端,并识别图片文字,最后打包 import keyboard #控制键盘 from pil import imagegrab #保存图片 import time from aip import aipocr """ 你的 appid ak sk """ app_id = '17076767' api_key = 'af3rj5halmz5an8prsgwth4m' secret_key = '******************' client = aipocr(app_id, api_key, secret_key) i = 0 while true: #1.截图 keyboard.wait('ctrl+alt+a') print('开始截图') keyboard.wait('enter') print('保存截图') time.sleep(0.1) #2.保存图片 image = imagegrab.grabclipboard() image.save('img{}.png'.format(i)) """ 调用通用文字识别(高精度版) """ with open('img{}.png'.format(i), 'rb') as fp: image = fp.read() text_list = client.basicaccurate(image)['words_result'] for text in text_list: print(text['words']) i+=1
附图图片识别案例
到此这篇关于十行python代码实现文字识别功能的文章就介绍到这了,更多相关python文字识别内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!