大数据的应用毫无疑问地是未来科技发展重要的一环。但要发挥数据的价值就不能忽略机器学习以及人工智能。若要简单解释这三者的关系:大数据为材料、机器学习是处理方法,而人工智能就是呈现出的结果。「机器学习」(Machine Learning)即让机器(计算机)像人类一样具有学习的能力。通过数据的训练,现今机器学习已经广泛的运用在生活里,例如,自动驾驶汽车和自动化大众运输、简化物流及配送方式、改善老年照护等等,将会使我们的生活越来越便利。
机器学习和人类学习的方式十分相似,要让机器(计算机)像人类一样具有学习能力的话,通常都会先进行「分类」(Classification),才能分析理解、进行判断,最后才能采取行动。机器学习的种类最主要分成四种:监督式学习(Supervised learning)、非监督式学习(Un-supervised learning)、半监督式学习(Semi-supervised learning)及强化学习(Reinforcement learning)。
监督式学习(Supervised learning):所有资料都被「标注」(label),告诉机器相对应的值,以提供机器学习在输出时判断误差使用。这种方法为人工分类,对计算机来说最简单,对人类来说最辛苦。这种方法象是告诉机器(计算机)标准答案,正式考试的时候机器依照标准答案作答,正确性会比较高。例如,若要训练机器区分大象和长颈鹿,则提供机器 100 张大象和长颈鹿的照片。机器依照标注的照片去侦测大象和长颈鹿的特征,依照特征就能辨识出大象和长颈鹿并进行预测。
非监督式学习(Un-supervised learning):所有资料都没有标注,机器透过寻找资料的特征,自己进行分类。此种方法不用人工进行分类,对人类来说最简单,但对计算机来说最辛苦,误差较大。若使用非监督式学习辨识大象及长颈鹿,机器得自行判断提供的 100 张照片里有哪些特征的是大象、哪些特征的是长颈鹿并同时进行分类。在未来预测时,利用机器自行所分类的特征去辨识是哪一种动物。但机器所辨识的结果不一定正确。
半监督式学习(Semi-supervised learning):对少部分资料进行「标注」,计算机只要透过有标注的资料找出特征并对其它的资料进行分类。这种方法可以让预测时比较精准,是目前最常用的一种方式。若有 100 张照片,则标注其中 10 张哪些是大象哪些是长颈鹿。机器透过这 10 张照片的特征去辨识及分类剩余的照片。因为已经有辨识的依据,所以预测出来的结果通常比非监督式学习准确。
强化式学习(Reinforcement learning):机器透过每一次与环境互动来学习,以取得最大化的预期利益。运用强化式学习的方式,我们不标注任何资料,但告诉它所采取的哪一步是正确、那一步是错误的,根据反馈的好坏,机器自行逐步修正、最终得到正确的结果。能使非监督式学习达成一定程度的正确性,就不能缺少强化式学习的方式。若机器自行辨识特征与分类,将某张大象的照片预测成长颈鹿,则人类给予错误的讯息。机器会再次辨认特征及分类。透过一次一次正确与错误的学习,最后的预测就会越来越精准。
以上介绍的四个种类,监督式学习是最准确的但却也是耗费最多人力成本的。但如果想在有限的人力成本之下掌握高准确度怎么办呢?有鉴于此, Amazon 提出了 Amazon SageMaker Ground Truth,透过建构高准确度的资料集来减少添加标注所造成的人力成本。完整的教学可以参考以下这篇博客,让您通过实验轻轻松松了解 SageMaker 的功能:SageMaker Ground Truth 建立高度精确资料集
参考资源: