化妆品建设网站的目的无锡建设局网站一号通-晋城市网站建设公司-Seo优化

化妆品建设网站的目的,无锡建设局网站一号通,做会员卡网站,小程序打包成app文章目录 0 前言1 课题说明2 效果展示3 具体实现4 关键代码实现5 算法综合效果 0 前言分享优质毕业设计项目#xff0c;今天要分享的是 #x1f6a9; 基于深度学习的数学公式识别算法实现项目运行效果#xff1a; 毕业设计深度学习的公式识别#x1f9ff; 项目分享:见…文章目录0 前言1 课题说明2 效果展示3 具体实现4 关键代码实现5 算法综合效果0 前言分享优质毕业设计项目今天要分享的是基于深度学习的数学公式识别算法实现项目运行效果毕业设计深度学习的公式识别项目分享:见文末!1 课题说明手写数学公式识别较传统OCR问题而言是一个更复杂的二维手写识别问题其内部复杂的二维空间结构使得其很难被解析传统方法的识别效果不佳。随着深度学习在各领域的成功应用基于深度学习的端到端离线数学公式算法并在公开数据集上较传统方法获得了显著提升开辟了全新的数学公式识别框架。然而在线手写数学公式识别框架还未被提出论文TAP则是首个基于深度学习的端到端在线手写数学公式识别模型且针对数学公式识别的任务特性提出了多种优化。公式识别是OCR领域一个非常有挑战性的工作工作的难点在于它是一个二维的数据因此无法用传统的CRNN进行识别。推荐大家用于毕业设计。。。。2 效果展示这里简单的展示一下效果3 具体实现神经网络模型是 Seq2Seq Attention Beam Search。Seq2Seq的Encoder是CNNDecoder是LSTM。Encoder和Decoder之间插入Attention层具体操作是这样Encoder到Decoder有个扁平化的过程Attention就是在这里插入的。具体模型的可视化结果如下4 关键代码实现classEncoder(object):Class with a __call__ method that applies convolutions to an imagedef__init__(self,config):self._configconfigdef__call__(self,img,dropout):Applies convolutions to the image Args: img: batch of img, shape (?, height, width, channels), of type tf.uint8 tf.uint8 因为 2^8 256所以元素值区间 [0, 255]线性压缩到 [-1, 1] 上就是 img (img - 128) / 128 Returns: the encoded images, shape (?, h, w, c) withtf.variable_scope(Encoder):imgtf.cast(img,tf.float32)-128.imgimg/128.withtf.variable_scope(convolutional_encoder):# conv max pool - /2# 64 个 3*3 filters, strike (1, 1), output_img.shape ceil(L/S) ceil(input/strike) (H, W)outtf.layers.conv2d(img,64,3,1,SAME,activationtf.nn.relu)image_summary(out_1_layer,out)outtf.layers.max_pooling2d(out,2,2,SAME)# conv max pool - /2outtf.layers.conv2d(out,128,3,1,SAME,activationtf.nn.relu)image_summary(out_2_layer,out)outtf.layers.max_pooling2d(out,2,2,SAME)# regular conv - idouttf.layers.conv2d(out,256,3,1,SAME,activationtf.nn.relu)image_summary(out_3_layer,out)outtf.layers.conv2d(out,256,3,1,SAME,activationtf.nn.relu)image_summary(out_4_layer,out)ifself._config.encoder_cnnvanilla:outtf.layers.max_pooling2d(out,(2,1),(2,1),SAME)outtf.layers.conv2d(out,512,3,1,SAME,activationtf.nn.relu)image_summary(out_5_layer,out)ifself._config.encoder_cnnvanilla:outtf.layers.max_pooling2d(out,(1,2),(1,2),SAME)ifself._config.encoder_cnncnn:# conv with stride /2 (replaces the 2 max pool)outtf.layers.conv2d(out,512,(2,4),2,SAME)# convouttf.layers.conv2d(out,512,3,1,VALID,activationtf.nn.relu)image_summary(out_6_layer,out)ifself._config.positional_embeddings:# from tensor2tensor lib - positional embeddings# 嵌入位置信息positional# 后面将会有一个 flatten 的过程会丢失掉位置信息所以现在必须把位置信息嵌入# 嵌入的方法有很多比如加乘缩放等等这里用 tensor2tensor 的实现outadd_timing_signal_nd(out)image_summary(out_7_layer,out)returnout学长编码的部分采用的是传统的卷积神经网络该网络主要有6层组成最终得到[N x H x W x C ]大小的特征。其中N表示数据的batch数W、H表示输出的大小这里WH是不固定的从数据集的输入来看我们的输入为固定的buckets具体如何解决得到不同解码维度的问题稍后再讲C为输入的通道数这里最后得到的通道数为512。当我们得到特征图之后我们需要进行reshape操作对特征图进行扁平化代码具体操作如下Ntf.shape(img)[0]H,Wtf.shape(img)[1],tf.shape(img)[2]# imageCimg.shape[3].value# channelsself._imgtf.reshape(img,shape[N,H*W,C])当我们在进行解码的时候我们可以直接运用seq2seq来得到我们想要的结果这个结果可能无法达到我们的预期。因为这个过程会相应的丢失一些位置信息。位置信息嵌入Positional Embeddings通过位置信息的嵌入我不需要增加额外的参数的情况下通过计算512维的向量来表示该图片的位置信息。具体计算公式如下其中p为位置信息f为频率参数。从上式可得图像中的像素的相对位置信息可由sin()或cos表示。我们知道sin(ab)或cos(ab)可由cos(a)、sin(a)、cos(b)以及sin(b)等表示。也就是说sin(ab)或cos(ab)与cos(a)、sin(a)、cos(b)以及sin(b)线性相关这也可以看作用像素的相对位置正、余弦信息来等效计算相对位置的信息的嵌入。这个计算过程在tensor2tensor库中已经实现下面我们看看代码是怎么进行位置信息嵌入。代码实现位于/model/components/positional.py。defadd_timing_signal_nd(x,min_timescale1.0,max_timescale1.0e4):static_shapex.get_shape().as_list()# [20, 14, 14, 512]num_dimslen(static_shape)-2# 2channelstf.shape(x)[-1]# 512num_timescaleschannels//(num_dims*2)# 512 // (2*2) 128log_timescale_increment(math.log(float(max_timescale)/float(min_timescale))/(tf.to_float(num_timescales)-1))# -0.1 / 127inv_timescalesmin_timescale*tf.exp(tf.to_float(tf.range(num_timescales))*-log_timescale_increment)# len 128 计算128个维度方向的频率信息fordiminrange(num_dims):# dim 0; 1lengthtf.shape(x)[dim1]# 14 获取特征图宽/高positiontf.to_float(tf.range(length))# len 14 计算x或y方向的位置信息[0,1,2...,13]scaled_timetf.expand_dims(position,1)*tf.expand_dims(inv_timescales,0)# pos [14, 1], inv [1, 128], scaled_time [14, 128] 计算频率信息与位置信息的乘积signaltf.concat([tf.sin(scaled_time),tf.cos(scaled_time)],axis1)# [14, 256] 合并两个方向的位置信息向量prepaddim*2*num_timescales# 0; 256postpadchannels-(dim1)*2*num_timescales# 512-(1;2)*2*128 256; 0signaltf.pad(signal,[[0,0],[prepad,postpad]])# [14, 512] 分别在矩阵的上下左右填充0for_inrange(1dim):# 1; 2signaltf.expand_dims(signal,0)for_inrange(num_dims-1-dim):# 1, 0signaltf.expand_dims(signal,-2)xsignal# [1, 14, 1, 512]; [1, 1, 14, 512]returnx得到公式图片xy方向的位置信息后只需要要将其添加到原始特征图像上即可。选题指导, 项目分享https://gitee.com/dancheng-senior/project-sharing-1/blob/master/%E6%AF%95%E8%AE%BE%E6%8C%87%E5%AF%BC/README.md5 算法综合效果项目运行效果毕业设计深度学习的公式识别

化妆品建设网站的目的无锡建设局网站一号通

营销型网站建设指导原则wordpress 功能插件

手工网站做蛋糕盒子c++培训班学费一般多少

网站短期电脑培训班学费网站建设南昌

500m网站空间2345导网址导航下载

如何对网站的图片做cdn简述做个人网页的思路

如何优化移动端网站免费建站软件排行榜

化妆品建设网站的目的无锡建设局网站一号通

营销型网站建设指导原则wordpress 功能插件

手工网站做蛋糕盒子c++培训班学费一般多少

网站短期电脑培训班学费网站建设 南昌

500m网站空间2345导网址导航下载

如何对网站的图片做cdn简述做个人网页的思路

如何优化移动端网站免费建站软件排行榜

网站短期电脑培训班学费网站建设南昌