TensorFlow 2.0 中文手寫字識別（漢字OCR）

07-01

TensorFlow 2.0 中文手寫字識別（漢字OCR）

在開始之前，必須要說明的是，本教程完全基於TensorFlow2.0 介面編寫，請誤與其他古老的教程混為一談，本教程除了手把手教大家完成這個挑戰性任務之外，更多的會教大家如何分析整個調參過程的思考過程，力求把人工智慧演算法工程師日常的工作通過這個例子毫無保留的展示給大家。另外，我們建立了一個高端演算法分享平台，希望得到大家的支持：http://manaai.cn , 也歡迎大家來我們的AI社區交流： http://talk.strangeai.pro

還在玩minist？fashionmnist？不如來嘗試一下類別多大3000+的漢字手寫識別吧！！雖然以前有一些文章教大家如何操作，但是大多比較古老，這篇文章將用全新的TensorFlow 2.0 來教大家如何搭建一個中文OCR系統！

讓我們來看一下，相比於簡單minist識別，漢字識別具有哪些難點：

搜索空間空前巨大，我們使用的數據集1.0版本漢字就多大3755個，如果加上1.1版本一起，總共漢字可以分為多達7599+個類別！這比10個阿拉伯字母識別難度大很多！
數據集處理挑戰更大，相比於mnist和fasionmnist來說，漢字手寫字體識別數據集非常少，而且僅有的數據集數據預處理難度非常大，非常不直觀，但是，千萬別嚇到，相信你看完本教程一定會收貨滿滿!
漢字識別更考驗選手的建模能力，還在分類花？分類貓和狗？隨便搭建的幾層在搜索空間巨大的漢字手寫識別里根本不work！你現在是不是想用很深的網路躍躍欲試？更深的網路在這個任務上可能根本不可行！！看完本教程我們就可以一探究竟！總之一句話，模型太簡單和太複雜都不好，甚至會發散！（想親身體驗模型訓練發散抓狂的可以來嘗試一下！）。

但是，挑戰這個任務也有很多好處：

本教程基於TensorFlow2.0，從數據預處理，圖片轉Tensor以及Tensor的一系列騷操作都包含在內！做完本任務相信你會對TensorFlow2.0 API有一個很深刻的認識！
如果你是新手，通過這個教程你完全可以深入體會一下調參（或者說隨意修改網路）的糾結性和蛋疼性！

本項目實現了基於CNN的中文手寫字識別，並且採用標準的tensorflow 2.0 api 來構建！相比對簡單的字母手寫識別，本項目更能體現模型設計的精巧性和數據增強的熟練操作性，並且最終設計出來的模型可以直接應用於工業場合，比如 票據識別, 手寫文本自動掃描 等，相比於百度api介面或者QQ介面等，具有可優化性、免費性、本地性等優點。

數據準備

在開始之前，先介紹一下本項目所採用的數據信息。我們的數據全部來自於CASIA的開源中文手寫字數據集，該數據集分為兩部分：

CASIA-HWDB：離線的HWDB，我們僅僅使用1.0-1.2，這是單字的數據集，2.0-2.2是整張文本的數據集，我們暫時不用，單字裡面包含了約7185個漢字以及171個英文字母、數字、標點符號等；
CASIA-OLHWDB：在線的HWDB，格式一樣，包含了約7185個漢字以及171個英文字母、數字、標點符號等，我們不用。

其實你下載1.0的train和test差不多已經夠了，可以直接運行 dataset/get_hwdb_1.0_1.1.sh 下載。原始數據下載鏈接點擊這裡.由於原始數據過於複雜，我們使用一個類來封裝數據讀取過程，這是我們展示的效果：