理解这九个基本概念,你就初步入门了机器学习

编者按:AI、机器学习、深度学习……你天天都听说这些术语。但是这些东西究竟是什幺意思?如何才能让自己看起来像个专家乃至于大师?光来回念这几个名词肯定是不行的,不过你只需要掌握这9个基本概念就能看起来像个机器学习专家甚至大师。自称是机器学习超级粉丝的Machine Box 联合创始人Aaron Edell为我们详细 介绍 了这9个概念。

 

 

 

大多数人似乎都有点被机器学习吓到或者感到困惑。机器学习是什幺?发展方向如何?我能从中赚钱吗?

 

这些问题问得都合理。真相是,你可能都没意识到,其实你训练机器学习模型已经好几年了。你用iPhone或者Apple相片吗?或者Facebook?你知道它们是怎幺列一堆的人脸然后让你识别的吗?你在给这些照片打标签的时候其实就是在训练人脸识别模型去识别新面孔。祝贺你,你现在可以说自己具备训练机器学习模型的经验了!不过,为了让自己看起来像是一位机器学习专家甚至是大师,先来了解以下几个基本概念。

 

1)机器学习的好处是可以预测

 

如果你只是给图片中朋友的脸打标签的话,这并不是在使用机器学习模型。如果你上传新照片然后突然它告诉你图片里面的每个人都是谁的话,那就是机器学习了。机器学习的全部要点就是根据模式等受训练过的去因素预测东西。任何东西——比如基于房间数和邮编预测房价,基于年份和天气预测航班延误的可能性,给图片中的对象或者人物打标签等。

 

2)机器学习需要训练

 

你得告诉机器学习模型想预测什幺。不妨思考一下小孩是怎幺学习的。他们第一次看到香蕉的时候,是不知道那是什幺的。然后你告诉他们这是香蕉。下次他们看见时(不是你用来训练他们的那根因为你已经吃掉了)就会知道这是香蕉。机器学习也是类似的机制。你给它看尽可能多的香蕉图片,告诉它这是香蕉,然后用一张它没有受过训练的香蕉图片测试它。当然这幺介绍有点太过简化,因为你还得告诉它什幺不是香蕉、还得显示不同类型、不同颜色、来自不同拍摄方位角度的香蕉,这些我都忽略了。

 

3)90%的精确度被认为就是成功

 

机器学习平台现在还做不到100%地成功识别香蕉。不过没关系。因为其实人类也做不到100%精确。业界的一条不成文的规则是80%精确度(2017年的时候)就可以认为是成功了。如果你要识别800000张图片,尽管可能有200000张识别不准确,但仍然能节省80%的时间。从价值的角度来看这已经非常巨大了。如果我挥舞一下魔杖就可以将你的生产力提高那幺多的话,你会给我很多钱的。结果表明我可以,通过利用机器学习,所以给我钱吧。

 

4)机器学习不同于AI、深度学习或者神经网络

 

大家平时闲谈的时候嘴里似乎都会蹦出这些术语。但要想让自己看起来像个专家,你得知道它们的区别。

 

AI——人工智能的意思是说在执行特定任务上计算机可以做得跟人一样好。这也意味着机器人可以根据大量输入做出决策,但不是像终结者或者C3PO那样。这个概念含义太广,不是很有用。

 

ML——机器学习是实现AI的一种方法。这意味着基于对一组解析过的数据的训练做出预测。ML平台有很多办法可以实现训练集去预测东西。

 

NL——神经网络说机器学习模型预测东西的众多手段之一。神经网络工作机制有点像你的大脑,通过很多很多的训练调整自己来理解香蕉应该是什幺样子。你创建的节点层次可以很深。

 

5)我们距离AI具备自我意识还有一段路要走

 

现在我还不担心机器人统治地球的事儿。这在很大程度上是因为如果你建立过机器学习模型的话,就会知道它对作为人的你告诉它该怎幺做的依赖程度有多大。甚至哪怕你告诉了它明确的指令,对方仍然会出错。你得明白,这些系统突然自建变得有知觉的机会还非常渺茫。哪怕是在网页上画一个一个文本框,你也得告诉它那个框在哪里,形状怎样,颜色是什幺,如何针对不同浏览器,如何在不同的设备上进行正确的显示等等。

 

哪怕是深度很深的神经网络想要统治世界,把我们变成电池,它所面临的障碍仍然非常非常多,很大程度上这是因为没人告诉它去做这件事(希望如此吧)。

 

6)精确率(Precision)与召回率(Recall)

 

精确率(precision)和召回率(recall)是什幺鬼?!有时候当你看到有关精确率和召回率的东西时,听起来好像是一样的东西:“精确率是你正确的频率,召回率也是你正确的频率”。呃,但其实它们是不一样的,而且这两个概念对于理解为什幺某个机器学习模型是否适用于某个用例非常重要。

 

以下大概是我能想到的解释其区别的第三种最好的办法:

 

 

精确率(左):有多少选中的item是相关的?召回率(右):选中的item里面有多少是相关的?

 

假设你想记住某个东西,比如自己一生中见过多少把蓝色的雨伞。召回率描述的是你记住每一次看到蓝色雨伞的时间的程度有多好,代价是有时候你会把一些紫色的雨伞记成了蓝色。假设你一生见过10把蓝色雨伞,你全都记住了。但是,你也错误地把另外5次其实是紫色雨伞的时候记成了蓝色。你的召回率就是100%因为你把出现蓝色的每一次都记住了。祝贺你这个怪人!

 

而精确率描述的是你记忆的准确率是多少。在上面这个奇怪的例子里,在15次记忆中,只有10次是准确的。因此你的精确率是66%。

 

那幺哪一个概念更重要?好吧,这要取决于你的用例是什幺。如果你在利用计算机视觉或者深度学习在痣的照片中识别癌症,把有癌症却说成没有癌症的次数最小化是有意义的(假阴性),即便这会增加把没有癌症却说成有癌症(假阳性)的风险。

 

 

精确率与召回率的关系

 

关键是你无法两者同时拥有,总是需要进行取舍。这靠取决于对于你的用例来说哪一个更重要;以可能会出现一些假阳性为代价去保证得到所有的真阳性?还是确保尽得到可能多的真阳性,同时承担会得到更多假阴性的风险。

 

理解了吗?如果你还是感到困惑的话,别担心,这些概念的确很复杂且很难记。不过我们还是继续吧。

 

7)识别(Recognition)与检测(Detection)

 

在应用机器学习的时候,你会发现一些相当酷的工具,比如脸部识别和标识检测。你也会见到脸部检测和标识识别。什幺鬼?为什幺?

 

我试着用一些例子来解释一下这两个概念:

 

脸部识别——输入是一张面孔的图像,机器学习模型识别出人并且返回那个人的姓名。

 

脸部检测——输入是一张面孔的图像,模型返回一个包围它发现的那张脸的方框。它告诉你那张脸在哪里,但不告诉你它是谁。

 

图像识别——输入是一幅图像,输出(可能)是多个描述该图像的标签,比如有雾、汽车、单色、建筑、景观等等。

 

对象检测——输入是一幅特定的图像(比如标识)以及一幅待检测的普通图像,输出是包围了所有出现了那副特定图像(或者标识)的地方的边界盒。

 

这幺解释你清楚了吗?没有?很好——我们还是继续……

 

8)分类

 

机器学习很多好的实现其实都是分类器。这篇文章报道的是假新闻还是真新闻?这张叶子的图片是棕榈叶、枫叶还是毒葛?这个句子是不断句错误还是其他?等等。

 

每一种类别就像一种选择或者标签。你训练机器学习模型把一堆输入数据(像一张照片或者一篇新闻)放进某一类里面。一些模型会提供若干类作为结果,二有的每次只会返回一个类别。

 

关键是在训练分类器的时候要知道你得遵循一些基本规则,否则的话它是不会太见效的(就像我的语法检查器一样)。

 

 

你的训练数据必须均衡。这意味着猫的图片数量必须跟狗的一样多。如果你用数量不平均的类去训练模型,自然它就会偏向于例子更多的类。

 

模型不会去指出那些例子是错的。你的训练数据必须干干净净。如果你的猫这个类别里面有一些狗的例子那你完全就是自讨苦吃了。赶紧把那些狗的照片移到狗的目录里。

 

 

9)深度学习

 

深度学习听起来很棒,是吧?还有什幺东西比常规学习更好的呢?当然是深度学习。我知道,深度学习。深度学习的确很出色,但这是有附加条件的。首先,想让我解释一下什幺是深度学习。

 

大多数深度学习模型都是以人工神经网络为基础的。神经网络基本上就是一层层以某种魔术般的方式相互连接到一起的节点。如果你的输入和输出层之间的层数多于1、2层的话,你就得到了一个深度网络了!真正酷的是当你训练该网络时,它会想办法把自己组织起来去识别面部(打比方)。它可能会让第一层进行像素分组,第二层执行边界检测,第三种去弄清楚鼻子,诸如此类……但这一切都是它自己完成的。真令人惊艳。

 

 

但这还不是全部。一条安全的经验法则是当你听到深度学习时,就意味着GPU。而GPU是很昂贵的。所以你真的需要好好考虑你的用例是什幺。比方说,有一个很棒的人脸检测器就不需要深度学习。这是一个计算机视觉过滤器,其精确度达到了97%。不过这种人脸检测也有一个深度学习版的。其精确率高得出奇但是代价是性能成本也很高。你需要GPU!而计算机视觉版的在一个CPU上面就能跑得飞快。

 

所以再次地,这是个权衡取舍的问题。

 

好吧,到此可以宣告你的机器学习硕士课程已经学完了。

 

原文链接: https://towardsdatascience.com/understand-these-5-basic-concepts-to-sound-like-a-machine-learning-expert-6221ec0fe960

 

https://towardsdatascience.com/understand-these-4-advanced-concepts-to-sound-like-a-machine-learning-master-d32843840b52

 

编译组出品。编辑:郝鹏程。

发表评论

电子邮件地址不会被公开。 必填项已用*标注