最新ocr识别有啥算法及数据集?

新手上路,请多包涵
  1. 目前使用的east+crnn-ctc,数据集使用了一个百度网盘里的有360w(感觉是工具生成)自己也生成了100w,来训练
  2. 目标是 单证识别和票据的打印字体
  3. east定位没啥问题主要是文字识别部分
  4. 文字识别效果感觉只能到80%正确率,(测试集实际是99.2%(但那个是在ctc下一图按35个位置计算的)),而同样的图片放到QQ识别就能到95%+,并且我的不支持白色文字
  5. 有大神能指导下如何提高准确率吗?
阅读 2.6k
撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题