softmax 函数的作用
?? 对于分类方面, softmax 函数的作用是从样本值计算得到该样本属于各个类别的概率大小. 例如手写数字识别, softmax 模型从给定的手写体图片像素值得出这张图片为数字 0~9 的概率值, 这些概率值之和为 1. 预测的结果取最大的概率表示的数字作为这张图片的分类.
可以从下面这张图理解 softmax
x1,x2,x3 代表输入的值, b1,b2,b3 代表类别 1,2,3 的偏置量, 是因为输入的值可能存在无关的干扰量.
将上图写成等式
\[ \left[\begin{matrix}temp_1\\temp_2\\temp_3\end{matrix}\right] =\left(\begin{matrix}W_{1,1}x_1+W_{1,2}x_2+W_{1,3}x_3+b_1\W_{2,1}x_1+W_{2,2}x_2+W_{2,3}x_3+b_2\W_{3,1}x_1+W_{3,2}x_2+W_{3,3}x_3+b_3\end{matrix}\right)\\left[\begin{matrix}y_1\\y_2\\y_3\end{matrix}\right] =softmax\left(\begin{matrix}temp_1\temp_2\temp_3\end{matrix}\right)\ 其中 y_i = softmax(temp_i) = \frac{exp(temp_i)}{\sum_{j=0}^{n}exp(temp_j)}\y_1,y_2,y_3 分别表示该样本属于类别 1,2,3 的概率值. \]
?? 在神经网络中, 通过训练集训练模型中的权重值 W 和偏置值 b, 来提高分类的准确性.
(训练方法是定义一个损失函数 (代表预测值与真实值之间的差异), 然后采用梯度下降法(通过对 W,b 求偏导) 来最小化这个损失函数, 具体过程有点复杂, 下面只是直接拿 tensorflow 的函数来实现, 后面有空的话再来补充原理)
用 Tensorflow 实现手写数字识别
首先从 tensorflow 导入 mnist 数据集, 里面包含了手写数字图片的像素矩阵, 以及这些图片所对应的数字类别:
- import tensorflow as tf
- from tensorflow.examples.tutorials.mnist import input_data
- mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)
说明一下图片的像素矩阵是将 28x28 压平为 [1x784] 大小的向量; 标签是 [1x10] 的向量, 其中某一个数是 1, 其余全为 0, 比如说如果标签表示的是数字 5, 那么这个标签向量为[0,0,0,0,1,0,0,0,0,0].
构建模型:
- x = tf.placeholder("float",[None,784])
- # 一个二维向量的占位符, None 表示第一位可以是任意长度, 784 表示一张图片压平后的长度
- W = tf.Variable(tf.zeros([784,10]))
- b = tf.Variable(tf.zeros([10]))
- #temp = x*W + b
- #softmax(temp)得到一个 [None,10] 的向量, 表示 None 个图片可能代表 0~9 的概率.
- y = tf.nn.softmax(tf.matmul(x,W)+b)
构建模型训练过程: 定义损失函数, 最小化这个损失函数, 从而得到 W,b
- y_ = tf.placeholder("float",[None,10])
- # 这里用占位符来代表 y_(每个图片的真实类别), 后面运行时会将真实类别填给占位符.
- cross_entropy = -tf.reduce_sum(y_*tf.log(y))
- #y 是模型的预测类别, y_是真实类别, 用交叉熵来代表损失函数(说明预测值和真实值之间的差异)
- train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)
- # 用梯度下降法来最小化损失函数
运行之前构造的模型:
- init = tf.initialize_all_variables()#init 表示初始化所有变量
- sess = tf.Session()# 启动会话, 用于运行模型
- sess.run(init)# 运行 init 才真正的使所有变量初始化
- for i in range(1000):# 训练模型 1000 遍
- batch_xs,batch_ys = mnist.train.next_batch(100)
- #从数据集中取出 100 个样本
- sess.run(train_step, feed_dict={x:batch_xs, y_:batch_ys})
- #将样本填入之前定义的占位符, 然后运行刚才构建的训练过程
评估模型:
- correct_prediction = tf.equal(tf.argmax(y,1),tf.argmax(y_,1))
- # 逐个判断预测值和真实值是否相等, 返回一个矩阵.
- accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
- #tf.cast 将 bool 型转化为 float 型, reduce_mean 计算平均值(即正确率)
- print(sess.run(accuracy, feed_dict={
- x: mnist.test.images, y_: mnist.test.labels
- }))
- # 将测试集填入之前的占位符, 运行之前的模型, 得到正确率
输出结果为:
0.9181
总结
??tensorflow 让用户先从更大的层面上构建模型, 其中需要的数据先由占位符代替, 然后在运行模型时再填入对应的数据. 用户不需要对具体运算过程一步步编程实现, 使得神经网络的构建简便了许多.
正在学习 tensorflows 时写的笔记, 欢迎评论探讨!
参考网址: tensorflow 中文社区
Softmax 用于手写数字识别(Tensorflow 实现)- 个人理解
来源: http://www.bubuko.com/infodetail-3336992.html