什么是图像分类?
图像分类的核心任务是从预定义的一类图像中为图像分配标签. 分析输入图像并返回标签对图像进行分类. 标签始终来自一组预定义的可能类别.
比如预定义的标签为:
categories = {cat, dog, panda}
image.png
分类系统还可以通过概率为图像分配多个标签. 比如狗: 95%; 猫: 4%; 熊猫: 1%. 更重要的是, W×H 像素输入图像有三个通道, Red,Green 和 Blue, 分析 W×H×3 = N 像素图像, 并弄清楚如何正确分类图像的内容.
image.png
在图像分类中, 我们的数据集是图像的集合. 因此, 每个图像都是数据点.
image.png
左边猫, 右边狗, 电脑看到的是像素矩阵. 实际上, 计算机并不知道图像中有动物.
image.png
上图可描述如下:
空间: 天空位于图像的顶部, 沙 / 海洋位于底部.
颜色: 天空是深蓝色, 海水浅蓝色, 而沙子则是
棕褐色.
纹理: 天空具有相对均匀的图案, 而沙子非常粗糙.
需要应用特征提取来量化图像的内容. 特征提取是获取输入图像, 应用算法和获得特征向量的过程. 可使用 HOG,LBP 或其他传统图像量化方法. 也可应用深度学习来自动学习.
image.png
视点变化: 方向 / 旋转 / 光线 / 背景等.
最后, 我们有类内变异. 类内部变异的典型例子
计算机视觉展示了椅子的多样化. 从我们用来卷曲的舒适椅子
并读一本书, 在我们的厨房桌子上为家庭聚会排队的椅子, 以及超现代的装饰艺术
在着名的家中找到的椅子, 椅子仍然是椅子 - 以及我们的图像分类算法
必须能够正确分类所有这些变化.
您是否开始对构建图像分类器的复杂性感到有些不知所措?
不幸的是, 它只会变得更糟 - 我们的图像分类系统不够健壮
这些变化是独立的, 但我们的系统还必须处理多种变化
一起!
那么我们如何解释对象 / 图像中如此惊人的变化? 在
一般来说, 我们会尽力解决问题. 我们对内容做出假设
我们的图像以及我们想要容忍的变化. 我们还考虑了项目的范围 - 最终目标是什么? 我们想要建立什么?
成功的计算机视觉, 图像分类和深度学习系统部署到
在编写单行代码之前, 现实世界会做出仔细的假设和考虑.
如果采用过于广泛的方法, 例如 " 我想对每个对象进行分类和检测
在我的厨房 ",(可能有数百个可能的物体) 然后你的分类系统
除非你有多年构建图像分类器的经验, 否则不太可能表现良好 - 和
即便如此, 也无法保证项目的成功.
但是, 如果你构建问题并使其范围缩小, 那就成功
来源: http://www.jianshu.com/p/13a0b19152ba