#化鲲为鹏,我有话说#使用华为云鲲鹏弹性云服务器部署文字识别Tesseract

网友投稿 793 2022-05-29

分配的弹性云服务器规格:2vCPUs|4G|CentOS6.5 64bit

首先登录上华为云官网,在控制台找到分配的弹性云服务器复制IP,打开桌面上的XFce,执行如下代码,将EIP修改为IP:

LANG=en_us.UTF-8 ssh root@EIP

输入密码,配置Tesseract环境所需要的依赖包,例如构建系统需要的Auto make,创建库的工具libtools、C++编译器、图片库等等

输入如下命令行进行相关依赖包安装:

yum install automake libtool gcc-c++ libjpeg-devel libpng-devel libtiff-devel -y

leptonica是tesserart的依赖库,使用它可以实现tesserart识别串的编译

#化鲲为鹏,我有话说#使用华为云鲲鹏弹性云服务器部署文字识别Tesseract

下载leptonica安装包,执行如下命令行:

wget https://sandbox-experiment-resource.obs.cn-north-1.myhuaweicloud.com/kunpeng-tesseract/leptonica-1.78.0.tar.gz

解压安装包,输入以下命令行:

tar -xvf leptonica-1.78.0.tar.gz

编译安装,先进入leptonica文件夹输入命令行:

cd leptonica-1.78.0

./configure --prefix=/usr/ && make -j4 && make install

配置leptonica所需要的环境变量:

进入:vim etc\profile

进入文件后在键盘上按shift+G键,跳转到文档的底部,将光标移动到done下一行,输入i进入编写状态,将下面的代码输入进去

export PKG_CONFIG_PATH=/usr/lib/pkgconfig

之后按esc退出编辑状态,输入:wq退出文档,输入下面的命令行进行个保存运行。

source /etc/profile && ldconfig

配置tesseract

进入src文件,下载tesseract,输入如下命令行:

cd /usr/local/src wget https://sandbox-experiment-resource.obs.cn-north-1.myhuaweicloud.com/kunpeng-tesseract/tesseract-4.0.0.tar.gz

解压压缩包:

tar -xvf tesseract-4.0.0.tar.gz

打开文件夹进行编译安装,输入如下命令行:

cd tesseract-4.0.0

./autogen.sh && ./configure && make -j4 && make install

编译成功后,进入root账户下,下载英文语言包:

cd /root wget https://sandbox-experiment-resource.obs-website.cn-north-1.myhwclouds.com/kunpeng-tesseract/eng.traineddata

下载中文语言包:

wget https://sandbox-experiment-resource.obs-website.cn-north-1.myhwclouds.com/kunpeng-tesseract/chi_sim.traineddata

tesserart识别语音包需要将语音包放置到“usr/local/share/tessdata”这个目录下一般与tesserart识别:

cp eng.traineddata /usr/local/share/tessdata -r && cp chi_sim.traineddata /usr/local/share/tessdata -r

接下来让我们下载个鲲鹏文字图片来进行个测试吧:

wget https://portal-www-software.obs.cn-north-1.myhuaweicloud.com:443/kunpeng_chi.bmp

执行以下命令让我们来查看下测试结果:

tesseract -l chi_sim kunpeng_chi.bmp res_chi && cat res_chi.txt

接下来让我们测试下英文测试结果:

下载英文测试图片

wget https://portal-www-software.obs.cn-north-1.myhuaweicloud.com:443/kunpeng.bmp

执行如下命令行进行测试:

tesseract kunpeng.bmp result && cat result.txt

至此我们tesserart文字识别搭建完成!

鲲鹏

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Yarn快速系列入门(1) | 基本架构与四大组件
下一篇:聊一聊 bootstrap 的轮播图插件
相关文章