【人工智能Ⅰ】8-回归 降维

news/2024/4/25 19:25:51

【人工智能Ⅰ】8-回归 & 降维

8-1 模型评价指标

分类任务

准确率、精确率与召回率、F值、ROC-AUC、混淆矩阵、TPR与FPR

回归任务

MSE、MAE、RMSE

无监督任务(聚类)

兰德指数、互信息、轮廓系数

回归任务的评价指标

1:MSE均方误差

mean squared error

计算真实值与预测值的差值的平方和的均值
M S E = ( 1 / m ) ∗ ∑ i = 1 m ( f ( x i ) − y i ) 2 MSE = (1/m)*∑_{i=1}^m(f(x_i)-y_i)^2 MSE=(1/m)i=1m(f(xi)yi)2
2:MAE平均绝对误差

mean absolute error

计算预测值与真实值之间的距离的绝对值的均值
M A E = ( 1 / N ) ∗ ∑ i = 1 N ∣ y i − f ( x i ) ∣ MAE=(1/N)*∑_{i=1}^N|y_i-f(x_i)| MAE=(1/N)i=1Nyif(xi)
3:RMSE均方根误差

root mean squared error

计算预测值与真实值的均方根
R M S E = ( 1 / N ) ∗ ∑ i = 1 N ( y i − f ( x i ) ) 2 RMSE=\sqrt{(1/N)*∑_{i=1}^N(y_i-f(x_i))^2} RMSE=(1/N)i=1N(yif(xi))2

8-2 回归分析

数据变量间关系

1:确定性关系(函数关系)

确定现象非随机变量间的关系,例如圆面积的计算

2:统计依赖关系(相关关系)

非确定现象随机变量间的关系,例如农作物产量与气温、降水、阳光等因素有关

相关分析 或 回归分析,可考察变量间统计依赖关系

数据变量间的统计依赖关系

统计依赖关系

——线性相关(相关系数:-1<rho<1)

————正相关

————不相关

————负相关

——非线性相关

————正相关

————不相关

————负相关

统计依赖关系

——有因果关系(回归分析)

——无因果关系(相关分析)

8-3 线性回归

线性:函数自变量和因变量之间的对应关系在集合呈现直线、平面或超平面

回归:用一个直线、平面或超平面拟合真实世界的规律

一元线性回归

回归方程

a是截距,b是斜率
y = a + b x y=a+bx y=a+bx
R^2判定系数

判定一元线性回归直线的拟合程度

值越大,自变量对因变量的解释程度越高,观察点在回归直线附近越密集
0 < = R 2 < = 1 0<=R^2<=1 0<=R2<=1

多元线性回归

回归方程

b0是常数项,b1bn是y对应于x1xn的偏回归系数
y = b 0 + b 1 x 1 + . . . b n x n y=b_0+b_1x_1+...b_nx_n y=b0+b1x1+...bnxn
Adjusted R^2

判定多元线性回归方程的拟合程度

逐步回归分析

最优回归方程:包含所有对y有影响的变量,而不包含对y影响不显著的变量

选择最优回归方程的方法

1:从所有可能的变量组合的回归方程中择优

2:从包含全部变量的回归方程中逐次剔除不显著因子

3:从一个变量开始,把变量逐个引入方程

4:有进有出的逐步回归分析

逐步回归分析法的思想

1:从一个自变量开始,按自变量作用的显著程度,从大到小依次逐个引入回归方程

2:若引入的某自变量由于后面变量的引入而不显著,则剔除

3:对每一步进行Y值检验,确保每次引入新的显著变量前回归方程中只包含对Y作用显著的变量

4:重复进行,直至既无不显著的变量剔除,又无显著变量引入

损失函数

显性的公式描述误差,并将误差优化到最小值

回归问题的常规步骤

1:寻找模型函数
h θ ( x ) = θ T X h_θ(x)=θ^TX hθ(x)=θTX
2:构造损失函数
J ( θ ) = 1 / 2 ∗ ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) 2 J(θ)=1/2*∑_{i=1}^m(h_θ(x^{(i)})-y^{(i)})^2 J(θ)=1/2i=1m(hθ(x(i))y(i))2
3:最小化损失函数并求回归参数

方法:最小二乘法、梯度下降法

8-4 最小二乘法线性回归

原理:目标拟合直线上各个相应点的值与测量值之差的平方和在所有拟合直线中最小
s = ∑ i = 1 n ϵ i 2 = ∑ i = 1 n [ y i − ( a + b x i ) ] 2 − > m i n s=∑_{i=1}^n\epsilon_i^2=∑_{i=1}^n[y_i-(a+bx_i)]^2->min s=i=1nϵi2=i=1n[yi(a+bxi)]2>min
使s最小的条件:s对a的一阶偏导=0,s对b的一阶偏导=0,s对a的二阶偏导>0,s对b的二阶偏导>0

a和b:
a = y ˉ − x ˉ a=\bar{y}-\bar{x} a=yˉxˉ

b = x y ‾ − x ‾ ∗ y ‾ x 2 ‾ − x ‾ 2 b=\frac{\overline{{xy}}-\overline{x}*\overline{y}}{\overline{x^2}-\overline{x}^2} b=x2x2xyxy

标准偏差:
σ a = 1 n ( x 2 ‾ − x ‾ 2 ) ∗ σ y \sigma_a=\sqrt{\frac{1}{n(\overline{x^2}-\overline{x}^2)}}*\sigma_y σa=n(x2x2)1 σy

σ b = x 2 ‾ n ( x 2 ‾ − x ‾ 2 ) ∗ σ y \sigma_b=\sqrt{\frac{\overline{x^2}}{n(\overline{x^2}-\overline{x}^2)}}*\sigma_y σb=n(x2x2)x2 σy

测量值 y i 的标准误差 σ y = Σ [ y i − ( a + b x i ) ] 2 n − 2 测量值y_i的标准误差\sigma_y=\sqrt{\frac{\Sigma[y_i-(a+bx_i)]^2}{n-2}} 测量值yi的标准误差σy=n2Σ[yi(a+bxi)]2

需要考虑的问题

1:经验公式是否合适(相关系数R)

|R|越接近1,线性关系越好

|R|越接近0,无线性关系,拟合无意义
R = x y ‾ − x ‾ ∗ y ‾ ( x 2 ‾ − x ‾ 2 ) ( y 2 ‾ − y ‾ 2 ) R=\frac{\overline{{xy}}-\overline{x}*\overline{y}} {\sqrt{(\overline{x^2}-\overline{x}^2)(\overline{y^2}-\overline{y}^2)}} R=(x2x2)(y2y2) xyxy
2:测量列是否存在粗差(肖维涅舍弃判据)

肖维涅系数Cu(查表)
y ′ ′ = a + b x i + C u ⋅ σ y y^{''}=a+bx_i+Cu\cdot\sigma_y y′′=a+bxi+Cuσy

y = a + b x i y=a+bx_i y=a+bxi

y ′ = a + b x i − C u ⋅ σ y y^{'}=a+bx_i-Cu\cdot\sigma_y y=a+bxiCuσy

最小二乘法优缺点

1:实验数据处理常用方法

2:最佳配方逼近可在一个区间上比较均匀的逼近函数,方法简单易行,实效性大,应用广泛

3:正规方程阶数较高时,容易出现病态

4:解决病态性,可引入正交多项式

8-5 逻辑回归

回归任务:变量连续

分类任务:变量离散

原理——替换回归的判别函数为sigmod
y = 1 1 + e − ( w T X + b ) y=\frac{1}{1+e^{-(w^TX+b)}} y=1+e(wTX+b)1
S形曲线,在中心点附近的增长速度快,在两段的增长速度慢

逻辑回归解决的问题——二分类(大于等于0.5的为正样本,小于0.5的为负样本)

判别函数
F ( x ) = { 1 , Y ( x ) > = 0.5 0 , Y ( x ) < 0.5 F(x)=\begin{cases} 1,&Y(x)>=0.5\\ 0,&Y(x)<0.5 \end{cases} F(x)={1,0,Y(x)>=0.5Y(x)<0.5

关键:模型参数w和b的估计

代价函数:
c o s t ( Y ( x ) , y ) = { − l o g Y ( x ) , y = 1 − l o g ( 1 − Y ( x ) ) , y = 0 cost(Y(x),y)=\begin{cases} -logY(x),&y=1\\ -log(1-Y(x)),&y=0 \end{cases} cost(Y(x),y)={logY(x),log(1Y(x)),y=1y=0
所有m个样本的代价累加并平均,可得最终的代价函数
c o s t = 1 m cos ⁡ ( Y ( x ) ⋅ y ) cost=\frac{1}{m}\cos(Y(x)\cdot y) cost=m1cos(Y(x)y)

逻辑回归推导

1:梯度下降法,对代价函数求偏导,直至函数值收敛

2:设置合适的学习率,过小会迭代过慢,过大会错过最佳收敛点

8-6 降维

在降低数据集维度的同时,保证有效信息不要丢失

维度灾难:feature过多,导致过拟合

降维方法

1:特征选择(原来特征的子集

2:特征抽取(原来的特征空间映射到新的特征空间)

主成分分析PCA

无监督学习的降维技术

主要思想:把原有的n维特征映射为k维的正交特征(即,主成分)

第一个新坐标轴的选择:原始数据中方差最大的方向

第二个新坐标轴的选择:与第一个坐标轴正交的平面中方差最大的

第三个新坐标轴的选择:与第一个和第二个坐标轴均正交的平面中方差最大的

(以此类推)

线性判别分析LDA

监督学习的降维技术(数据集的每个样本有类别输出)——与PCA的不同

主要思想:投影后类内方差最小,类间方差最大

LDA和PCA的区别

1:PCA从特征的协方差切入,寻找投影方式

2:LDA从类别标注切入,期望投影后不同类别之间的数据距离较大,同一类别的数据紧凑

LDA和PCA的异同点

同:

1:数据降维

2:降维时使用矩阵特征分解的思想

3:假设数据符合高斯分布

异:

1:LDA降维最多到类别数k-1的维数,PCA无限制

2:LDA可以用于分类

3:LDA选择分类性能最好的投影方向,PCA选择样本点投影具有最大方差的方向


https://www.xjx100.cn/news/3091581.html

相关文章

【项目实战】多租户实现数据库动态切换

文章目录 背景多数据源准备工作整体思路 多数据源切换方式准备工作自动切换&#xff08;DS方式&#xff09;配置文件设置 手动切换配置文件设置项目启动加载数据源&#xff1a;使用注解PostConstruct添加数据源 总结 背景 最近公司项目中需要做多租户进行数据源切换的业务&…

pytorch下载离线包的网址

下载地址&#xff1a;https://download.pytorch.org/whl/torch_stable.html 安装GPU版本需要安装&#xff1a;torch、torchvision、 注意版本需要对应上 格式&#xff1a;适用cuda版本&#xff0c;torch版本 或者 orchvision版本&#xff0c;cp38就是适用python 3.8版本 下…

FL Studio21怎么破解?2024年最新FLStudio21.2.0安装解锁特别版下载使用图文教程

用FL Studio编曲&#xff0c;让音乐成为你的翅膀&#xff0c;飞翔在无尽的创作海洋中吧&#xff01; FL Studio作为一款功能强大且备受赞誉的音乐制作软件&#xff0c;为你提供了一个独特的创作平台。通过FL Studio&#xff0c;你可以自由地创作、编曲&#xff0c;制作属于自己…

一篇文章让你彻底了解Java算法「十大经典排序算法」

✍️作者简介&#xff1a;码农小北&#xff08;专注于Android、Web、TCP/IP等技术方向&#xff09; &#x1f433;博客主页&#xff1a; 开源中国、稀土掘金、51cto博客、博客园、知乎、简书、慕课网、CSDN &#x1f514;如果文章对您有一定的帮助请&#x1f449;关注✨、点赞&…

腾讯云轻量应用服务器三年租用价格表_免去续费困扰

腾讯云服务器续费贵所以一次性买3年或5年&#xff0c;腾讯云轻量应用服务器3年价格有优惠&#xff0c;CVM云服务器5年有特价&#xff0c;腾讯云3年轻量和5年云服务器CVM优惠活动入口&#xff0c;3年轻量应用服务器配置可选2核2G4M和2核4G5M带宽&#xff0c;5年CVM云服务器可以选…

C#中的is和as的使用和区别

目录 概述一、is操作符1. is操作符的语法2. is操作符的用途3. is操作符的使用示例4. is操作符与typeof操作符的区别 二、as操作符1. as操作符的语法2. as操作符的用途3. as操作符的使用示例4. as操作符与is操作符的区别和联系5. as操作符与is操作符的区别总结 概述 在C#编程语…

使用 gpg 对Linux下的文件加密

其实蛮简单的&#xff0c;Linux原生就有gpg命令。 gpg表示GNU Privacy Guard。PGP表示Pretty Good Privacy。有点绕&#xff0c;别搞混。 gpg 是 GNU Privacy Guard (GnuPG) 的 OpenPGP&#xff08;Pretty Good Privacy&#xff09;部分。 它是一个使用 OpenPGP 标准提供数字…

vue3使用pinia实现数据缓存

文章目录 前言一、pinia是什么&#xff1f;二、安装pinia三、注册pinia四、使用pinia定义数据及方法使用 优化如有启发&#xff0c;可点赞收藏哟~ 前言 vue2以前一直使用vuex实现状态管理 vue3之后推出了pinia… 一、pinia是什么&#xff1f; 直观、类型安全、轻便灵活的Vue …