基本使用方法
ddddocr(带带弟弟OCR):是一个很好用的ocr识别库
ddddocr
GitHub:https://github.com/sml2h3/ddddocr
dddd_trainer 是 ddddocr 的训练工具
dddd_trainer
GitHub:https://github.com/sml2h3/dddd_trainer
测试样例
实现代码
识别结果
识别的结果(798=9
)实际结果还是有些差异,那么就需要自己训练一下模型。
训练方法
步骤1 标注训练数据
数据集支持两种格式:
- 从文件名导入
- 从文件中导入
从文件名导入格式
从文件中导入格式
本文中,由于是计算题,其中有?
,但文件名中不能包含?
,故使用第二种导入方法
训练的数据集,如下
步骤2 创建训练项目
- 克隆项目
git clone https://github.com/sml2h3/dddd_trainer.git
- 安装依赖
pip install -r requirements.txt -i https://pypi.douban.com/simple
- 创建项目
python app.py create {project_name}
步骤3 缓存数据及训练
缓存数据
python app.py cache {project_name} /root/images_set/
如果是从labels.txt里面读取数据
python app.py cache {project_name} /root/images_set/ file
开始训练
python app.py train {project_name}
训练好的模型在{project_name}\models
下
如果 ‘export_onnx’ 报错 可以看看这个Issues 👉 https://github.com/sml2h3/dddd_trainer/issues/12
测试
拷贝训练好的模型(onnx
文件和charsets.json
)
训练结果如下