Press "Enter" to skip to content

1.机器学习概念及相关术语解释

本站内容均来自兴趣收集,如不慎侵害的您的相关权益,请留言告知,我们将尽快删除.谢谢.

一丶 机器学习概念

 

概述: 机器学习是人工智能具有智能的必要技术手段,人工智能的核心,机器学习是致力于研究如何通过CPU和GPU(图形图像处理器)的计算,利用经验或数据来改善计算机系统自身的性能

 

总结: 机器学习模型=数据+算法

 

如果有新的数据,我们只需要带入到Model中就可以输出预测值

 

什幺不是机器学习?

 

比如对于计算问题丶已经知道结果等不是机器学习问题(比如: 统计成绩搞的同学的topN)

 

机器学习其实就是需要有一个预测的过程

 

机器学习概念补充:

 

1.说明: X: 特征或属性 Y:类别标签类或预测的值

训练集和测试集 : 通常要将数据集分为两部分,训练集用来模型的训练,测试集用来模型测试模型的好坏程度.
模型的好坏 : 训练误差 (模型预测在训练集上的Y值误差)丶 测试误差 (模型预测在测试集上Y值的误差)丶 准确率 (分对的/全部)丶 错误率 (1-正确率)

二丶两种学习方式

基于规则的学习 :主要是通过基于专家发现的规则,指定规则,只需要新数据带入规则进行判断即可
基于模型的学习 :x:特征数据 –> f(函数-模型) –> Y(结果数据),基于模型就可以直接预测分析得到结果数据

三丶术语

 

3.1机器学习分类的几种概念

 

监督学习:
无监督学习:
半监督学习:
强化学习:

 

监督学习:

分类:预测值是否为连续值,不是连续值的预测的话,是分类
回归:预测值是连续值的话,是回归

非监督学习:

聚类:通过相似性度量,组内的相似性是极高的,组内的相异性是极高的,进行分类
降维-通过算法进行降维的话,Z1和Z2的物理含义是不明确的
– 特征选择: 从原有的特征中选择比较重要的特征—x1,x2,x3==>Z1,Z2

半监督学习:

1.基于聚类的假设
–有类别标记的数据+没有类别标记的数据,将有类别标记的数据,去掉标签列,
此时所有的数据均没标签,对全部数据进行聚类,聚类之后,有类别标记的数据和没有类别标记的数据,有可能被分到不同的组或簇中,将所有的,有类别标记的数据,根据机器学习常用的处理方法–投票原则,根据少数服从多数的原则进行表决,将没有带类别标签的数据加上类别标签
2.利用所有样本再进行模型训练

强化学习:

解决连续决策的问题丶围棋丶无人驾驶汽车等问题

3.2机器学习三要素

 

模型
算法
策略

 

3.3其他

 

降维
抽样
交叉验证
过拟合
欠拟合
模型选择的基本原则-奥卡姆剃刀原则
特征向量:
训练集:
测试集:

 

 

四丶分类和回归问题

 

4.1说明

如果 预测值连续值 对应的问题是 回归问题
如果 预测值离散值 对应的问题的 分类问题
4.2类别型变量处理

比如天气: 晴天丶阴天丶雨天

lable encoder: 标签编码

晴天丶阴天丶雨天

 

0——–1——–2

 

ont-hot encoder: 独热编码(二进制方式)

 

晴天 丶 阴天丶 雨天

 

1———0———-0

 

0———1———-0

 

0———0———-1

 

总结:通常使用label encoder(标签编码)

Be First to Comment

发表回复

您的电子邮箱地址不会被公开。