机器学习期末考试重点
本文最后更新于:2024年7月4日 凌晨
基础概念
训练集
训练集是用来训练模型的数据集。
测试集
测试集是用于最终评估模型性能的数据集
验证集
验证集是用于评估模型性能和调整超参数的数据集
泛化能力
泛化能力是指模型对未知数据的适应能力。
过拟合
过拟合是指模型在训练集上表现很好,但在测试集上表现很差。
欠拟合
欠拟合则是模型在训练数据和测试数据上的表现都不佳。这可能是由于模型过于简单,无法捕捉到数据中的复杂模式。
归一化
什么是归一化
归一化是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。通常这个区间为[0,1]。
公式
$$
X_{new} = \frac{X - X_{min}}{X_{max} - X_{min}}
$$
模型性能评估指标计算
错误率
$$
\text{错误率} = \frac{\text{错误分类的样本数}}{\text{总样本数}}
$$
错误率越小,模型性能越好。
精确率
精确率是指分类器正确识别出的正例数据在所有识别为正例数据中的比例。
$$
\text{精确率} = \frac{\text{正确的个数}}{\text{识别到的样本个数}}
$$
召回率
召回率是指分类器正确识别出的正例数据在所有正例数据中的比例。
$$
\text{召回率} = \frac{\text{正确的个数}}{\text{样本中的个数}}
$$
调和平均值 F1指标
F1指标为精确率和召回率的调和平均数。
$$
F1 = \frac{2 \times \text{精确率} \times \text{召回率}}{\text{精确率} + \text{召回率}}
$$
均方误差MSE
均方误差是指预测值与真实值之间的差值的平方和的平均值。
$$
MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2
$$
ROC曲线
ROC曲线是以假正例率为横轴,真正例率为纵轴的曲线。
AUC
AUC是ROC曲线下的面积,AUC越大,模型性能越好。
聚类算法
聚类算法是一种无监督学习算法,它将数据集中的数据分成若干个类,使得同一个类中的数据相似度较高,不同类之间的数据相似度较低。
通常的聚类算法有K-means、DBSCAN、层次聚类等。
怎么样评价好坏
通常评价方法有3种:外部有效性评价,内部有效性评价和相关性测试评价。
外部有效性评价
外部有效性评价可以反应聚类结果的整体直观效果。常用的外部有效性指标有Jaccard系数、FM指数、Rand指数等。
内部有效性评价
内部有效性评价利用数据集内部特征来评价聚类结果。常用的内部有效性指标有DB指数、Dunn指数、轮廓系数等。
相关性测试评价
相关性测试评价是选定某个评价指标,通过对比不同聚类算法在该指标上的表现来评价聚类算法的优劣。
推荐算法
什么是推荐算法
推荐算法是一种根据用户的历史行为和偏好,为用户推荐可能感兴趣的物品的算法。主要分为协同过滤、基于内容的推荐、混合推荐等。
应用案例
推荐算法在电商、社交、音乐、视频等领域都有广泛的应用。比如淘宝、京东的商品推荐,微信、QQ的好友推荐,网易云音乐的歌曲推荐,抖音的视频推荐等。
评价指标
评价指标主要分为用户信任度,推荐准确度,覆盖率,多样性,实时性等。
用户信任度
用户信任度是指用户对推荐系统的信任程度,通常通过用户的点击率、购买率等来衡量。
推荐准确度
推荐准确度是指推荐系统的推荐结果与用户实际兴趣的吻合程度,通常通过准确率、召回率、F1值等来衡量。
覆盖率
覆盖率是指推荐系统能够覆盖的物品数量,通常通过推荐物品的覆盖率、用户覆盖率等来衡量。
多样性
多样性是指推荐系统推荐的物品之间的差异性,通常通过物品之间的相似度、用户的兴趣多样性等来衡量。
实时性
实时性是指推荐系统能够在用户行为发生变化时及时更新推荐结果的能力,通常通过推荐结果的更新速度、推荐结果的实时性等来衡量。
回归算法
线性回归
线性回归是一种用于建立自变量和因变量之间关系的回归分析模型。通常用于预测连续型变量。
逻辑回归
逻辑回归是一种用于建立自变量和因变量之间关系的回归分析模型。通常用于预测二分类问题。
逻辑回归里面有线性回归和逻辑回归之间的区别和联系?
逻辑回归是在线性回归的基础上加了一个sigmoid函数,将线性回归的输出映射到[0,1]之间,用于预测二分类问题。
逻辑回归的损失函数
损失是指模型预测值与真实值之间的差异。逻辑回归的损失函数通常使用交叉熵损失函数。常见的损失函数有对数损失函数、平方损失函数、绝对损失函数等。
逻辑回归的损失函数是对数损失函数。损失函数约小,模型性能越好。
与线性回归区别与联系
线性回归是用于预测连续型变量,逻辑回归是用于预测二分类问题。逻辑回归是在线性回归的基础上加了一个sigmoid函数,将线性回归的输出映射到[0,1]之间。
支持向量机
支持向量机是一种用于分类和回归的监督学习算法。目标是在有限的数据星系下,渐进求解得到最优的结果。核心思想是假设一个函数集合,其每个函数都能渠道最小的误差。从中选择一个最优的函数。
线性判别分析LDA
什么是LDA
线性判别分析是一种用于降维和分类的监督学习算法。其目标是找到一个投影方向,使得同一类别的样本尽可能接近,不同类别的样本尽可能远离。在对新样本进行分类时,将其投影到这个方向上,根据投影值的大小来判断其类别。
思想
LDA的核心思想是找到一个投影方向,使得同一类别的样本尽可能接近,不同类别的样本尽可能远离。在对新样本进行分类时,将其投影到这个方向上,根据投影值的大小来判断其类别。
什么是核函数(课件p21)
核函数,统计学术语,支持向量机通过某非线性变换 φ( x) ,将输入空间映射到高维特征空间。特征空间的维数可能非常高。如果支持向量机的求解只用到内积运算,而在低维输入空间又存在某个函数 K(x, x′) ,它恰好等于在高维空间中这个内积,即K(x,x′) =φ(x)⋅φ(x′) ; 。那么支持向量机就不用计算复杂的非线性变换,而由这个函数 K(x, x′) 直接得到非线性变换的内积,使大大简化了计算。这样的函数 K(x, x′) 称为核函数。
核函数包括线性核函数、多项式核函数、高斯核函数等,其中高斯核函数最常用,可以将数据映射到无穷维,也叫做径向基函数(Radial Basis Function 简称 RBF),是某种沿径向对称的标量函数。通常定义为空间中任一点x到某一中心xc之间欧氏距离的单调函数,可记作 k(||x-xc||), 其作用往往是局部的,即当x远离xc时函数取值很小。