data:image/s3,"s3://crabby-images/c3c71/c3c7124657327f2566dbcbfafdc90eddd0e68452" alt="Kubeflow:云计算和机器学习的桥梁"
2.4 机器学习的“Hello World”
2.4.1 MNIST 数据集
MNIST 数据集(Mixed National Institute of Standards and Technology database,美国国家标准与技术研究所数据库)是著名的公开数据库之一,它是一个入门级的计算机视觉数据集,包含大量的手写数字图片。在机器学习领域,MNIST 数据集可以说是入门基础。
在机器学习的学习过程中,需要有大量的数据集。一个机器学习构件,除了机器算法、模型,还要有丰富且大量的训练样本。
在MNIST 官方网站上可以下载以下4 个数据文件(分别是训练样本、训练标签、测试样本、测试标签)。
data:image/s3,"s3://crabby-images/0ee02/0ee027ca7ba6349c5ac93d3683050b0742631489" alt="img"
下载到的图片如图2-5 所示,是由不同人手写的数字图片组成的,并且数量很多。需要注意的是,提供的图片的格式并不是通用的图片格式,是经过处理的,无法用图片浏览器打开。
data:image/s3,"s3://crabby-images/e55be/e55be5aff582d7356b6a8fede6afdc0c4f5829aa" alt="img"
图2-5 MNIST 数据集中的手写数字图片
2.4.2 MNIST 模型训练
下面快速演示一下在TensorFlow 中,MNIST 模型训练的过程,使大家对机器学习有一个大体的了解。
第一步,下载并安装TensorFlow。在安装完成后,将TensorFlow 载入程序,如下所示。
data:image/s3,"s3://crabby-images/3a766/3a766a4b29fd49fc0aa72964212d242e8c9657bb" alt="img"
第二步,载入准备好的MNIST 数据集,将样本从整数转换为浮点数,如下所示。
data:image/s3,"s3://crabby-images/100da/100daeaf84232c3e6548af9d0b9dab0c4d32c0d1" alt="img"
程序开始自动下载mnist.npz,如下所示。
data:image/s3,"s3://crabby-images/c5c06/c5c06d9307a2580953e24928e40afd99f03dd552" alt="img"
第三步,定义和搭建 tf.keras.models.Sequential 模型,用于训练选择优化器和损失函数,如下所示。
data:image/s3,"s3://crabby-images/86d53/86d53132d3a91075e94db12395c20a6691e27929" alt="img"
第四步,运行以下语句以训练和验证模型。
data:image/s3,"s3://crabby-images/66ea5/66ea54b3eca0c39a50d7ff0544ada720fa19c822" alt="img"
训练的过程大致如下:
data:image/s3,"s3://crabby-images/7dc27/7dc2777d9728cba0221e55a2b1dd19bd69cc0a06" alt="img"
我们看到,这个数字识别器的准确度已经高达98%了。至此,我们完成了一个入门级机器学习的模型训练,实现了数字图片的识别功能。在这个模型训练中,我们使用了现成的数据集和算法,只设置了几个超参,因为数据量小,所以速度很快。有了MNIST模型训练的直观概念,我们就能很好地理解Kubeflow 中的MNIST 模型训练了。