1、逻辑回归:是一种广义的线性回归分析模型。
2、线性回归:利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。
1、逻辑回归:常用于数据挖掘,疾病自动诊断,经济预测等领域。
2、线性回归:常运用于数学、金融、趋势线、经济学等领域。
适用场景
应用:
用于分类:适合做很多分类算法的基础组件。
用于预测:预测事件发生的概率(输出)。
用于分析:单一因素对某一个事件发生的影响因素分析(特征参数值)。
适用:
基本假设:输出类别服从伯努利二项分布。
样本线性可分。
特征空间不是很大的情况。
不必在意特征间相关性的情景。
后续会有大量新数据的情况。
解决过拟合的方法
增加数据量(万能办法)
减少特征:手动剔除;特征选择算法
正则化:结构风险最小化策略
数据稀疏:L1正则化
其他情况:L2正则化
损失函数
极小化对数似然的相反数:
优缺点
优点:
(模型)模型清晰,背后的概率推导经得住推敲。
(输出)输出值自然地落在0到1之间,并且有概率意义(逻辑回归的输出是概率么?
(参数)参数代表每个特征对输出的影响,可解释性强
(简单高效)实施简单,非常高效(计算量小、存储占用低),可以在大数据场景中使用。
(可扩展)可以使用online learning的方式更新轻松更新参数,不需要重新训练整个模型。
(过拟合)解决过拟合的方法很多,如L1、L2正则化。
(多重共线性)L2正则化就可以解决多重共线性问题。
缺点:
(特征相关情况)因为它本质上是一个线性的分类器,所以处理不好特征之间相关的情况。
(特征空间)特征空间很大时,性能不好。
(精度)容易欠拟合,精度不高。
与其他分类方法的比较
决策树:
数据的结构:逻辑回归胜在整体分析,决策树胜在局部分析。
线性特性:逻辑回归擅长线性数据,决策树擅长非线性。
缺失值。
SVM:
极值:逻辑回归对极值敏感,SVM不。
分布式计算方法
常用优化方法:
随机梯度下降(SGD)
批梯度下降(Batch GD)
共轭梯度
拟牛顿法(LBFGS)
交替方向乘子法(ADMM,优化目标+正则项)
分布式:
梯度的计算可以拆解为分块计算,map-reduce思想
复杂度
批梯度下降:每一轮迭代O(n)