首页 文章

线性回归和逻辑回归有什么区别?

提问于
浏览
148

当我们必须预测categorical(或离散)结果的值时,我们使用logistic regression . 我相信我们使用linear regression来预测输入值的结果值 .

那么,这两种方法有什么区别?

11 回答

  • 6

    只是添加以前的答案 .

    Linear regression

    旨在解决预测/估计给定元素X的输出值的问题(比如f(x)) . 预测的结果是连续的函数,其中值可以是正的或负的 . 在这种情况下,您通常会有一个包含大量示例的输入数据集以及每个示例的输出值 . 目标是能够将模型拟合到此数据集,以便您能够预测新的不同/从未见过的元素的输出 . 以下是将线拟合到点集的经典示例,但通常线性回归可用于拟合更复杂的模型(使用更高的多项式度):

    enter image description here
    Resolving the problem

    线性回归可以通过两种不同的方式解决:

    • 正规方程(直接解决问题的方法)

    • 梯度下降(迭代法)

    Logistic regression

    旨在解决 classification 问题,其中给定一个元素,你必须在N个类别中对相同的元素进行分类 . 典型的例子是例如给出邮件以将其分类为垃圾邮件或者不给予垃圾邮件,或者给予车辆查找它所属的类别(汽车,卡车,货车等) . 这基本上是输出是一组有限的离散值 .

    Resolving the problem

    只能通过使用梯度下降来解决逻辑回归问题 . 该公式通常与线性回归非常相似,唯一的区别在于不同假设函数的使用 . 在线性回归中,假设具有以下形式:

    h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 ..
    

    其中θ是我们试图拟合的模型,[1,x_1,x_2,..]是输入向量 . 在逻辑回归中,假设函数是不同的:

    g(x) = 1 / (1 + e^-x)
    

    enter image description here

    这个函数有一个很好的属性,基本上它将任何值映射到范围[0,1],这适合于在分类期间处理可预测性 . 例如,在二元分类的情况下,g(X)可以被解释为属于正类的概率 . 在这种情况下,通常您有不同的类,这些类用决策边界分隔,该决策边界基本上是决定不同类之间分离的曲线 . 以下是在两个类中分隔的数据集的示例 .

    enter image description here

  • 1

    基本区别:

    线性回归基本上是回归模型,这意味着它将给出函数的非谨慎/连续输出 . 所以这种方法给出了 Value . 例如:给定x是什么是f(x)

    例如,考虑到培训后的不同因素和培训后的房产价格,我们可以提供所需的因素来确定房产价格 .

    逻辑回归基本上是一种二元分类算法,这意味着这里将有功能的谨慎值输出 . 例如:对于给定的x,如果f(x)>阈值将其分类为1,则将其归类为0 .

    例如,给定一组脑肿瘤大小作为训练数据,我们可以使用该大小作为输入来确定其是否为苯或恶性肿瘤 . 因此,这里输出是谨慎的0或1 .

    *这里的功能基本上就是假设功能

  • 185

    简而言之:线性回归可以提供连续输出 . 即一系列值之间的任何值 . Logistic回归给出离散输出 . 即是/否,0/1种输出 .

  • 4

    在线性回归中,结果(因变量)是连续的 . 它可以具有无数个可能值中的任何一个 . 在逻辑回归中,结果(因变量)仅具有有限数量的可能值 .

    例如,如果X包含房屋平方英尺的面积,而Y包含这些房屋的相应销售价格,您可以使用线性回归来预测销售价格与房屋大小的函数关系 . 虽然可能的销售价格实际上可能不是任何价格,但是有很多可能的值会选择线性回归模型 .

    相反,如果您想根据大小预测房屋的售价是否会超过20万美元,那么您将使用逻辑回归 . 可能的输出要么是,房子将卖出超过20万美元,或者否,房子不会 .

  • 156

    简单地说,线性回归是一种回归算法,它可以推出一个可能的连续无限值;逻辑回归被认为是二元分类器算法,其输出属于标签(0或1)的输入的“概率” .

  • 1
    • Linear regression output as probabilities

    使用线性回归输出作为概率很诱人,但这是一个错误,因为输出可能是负的,大于1而概率不能 . 因为回归可能实际上产生可能更少的概率比0,甚至大于1,引入了逻辑回归 .

    资料来源:http://gerardnico.com/wiki/data_mining/simple_logistic_regression

    enter image description here

    • Outcome

    在线性回归中,结果(因变量)是连续的 . 它可以具有无数个可能值中的任何一个 .

    在逻辑回归中,结果(因变量)仅具有有限数量的可能值 .

    • The dependent variable

    当响应变量本质上是分类时,使用逻辑回归 . 例如,是/否,真/假,红/绿/蓝,第一/第二/第三/第四等 .

    当响应变量是连续的时,使用线性回归 . 例如,重量,高度,小时数等 .

    • Equation

    线性回归给出一个方程,其形式为Y = mX C,表示方程为1 .

    然而,逻辑回归给出了一个Y = eX e-X形式的方程

    • Coefficient interpretation

    在线性回归中,自变量的系数解释非常简单(即保持所有其他变量不变,在该变量中单位增加,预期因变量增加/减少xxx) .

    但是,在逻辑回归中,取决于您使用的族(二项式,泊松等)和链接(log,logit,inverse-log等),解释是不同的 .

    • Error minimization technique

    线性回归使用普通最小二乘法来最小化误差并达到最佳拟合,而逻辑回归使用最大似然法来得出解 .

    线性回归通常通过最小化模型对数据的最小平方误差来解决,因此大的误差会被二次惩罚 .

    逻辑回归恰恰相反 . 使用逻辑损失函数导致大的误差被惩罚为渐近常数 .

    考虑对分类{0,1}结果进行线性回归,看看为什么这是一个问题 . 如果你的模型预测结果是38,当真相是1时,你've lost nothing. Linear regression would try to reduce that 38, logistic wouldn' t(同样多)2 .

  • 0
    | Basis                                                           | Linear                                                                         | Logistic                                                                                                            |
    |-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
    | Basic                                                           | The data is modelled using a straight line.                                    | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
    | Linear relationship between dependent and independent variables | Is required                                                                    | Not required                                                                                                        |
    | The independent variable                                        | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist).                                              |
    
  • 6

    简单地说,如果在线性回归模型中,对于y = 1和y = 0的预测,更多的测试用例到达远离阈值(例如= 0.5) . 那么在这种情况下,假设会发生变化并变得更糟 . 因此线性回归模型不用于分类问题 .

    另一个问题是,如果分类是y = 0且y = 1,则h(x)可以> 1或<0 . 因此我们使用Logistic回归0 <= h(x)<= 1 .

  • 0

    它们在求解时非常相似,但正如其他人所说,一个(Logistic回归)用于预测类别“拟合”(Y / N或1/0),另一个(线性回归)用于预测一个值 .

    因此,如果您想预测您是否患有癌症Y / N(或概率) - 请使用物流 . 如果你想知道你会活多少年 - 使用线性回归!

  • 1

    Logistic回归用于预测分类输出,如是/否,低/中/高等 . 您基本上有两种类型的逻辑回归二元Logistic回归(是/否,批准/不批准)或多类Logistic回归(低/中等) /高,0-9等数字)

    另一方面,线性回归是指你的因变量(y)是连续的 . y = mx c是简单的线性回归方程(m =斜率,c是y截距) . 多线性回归有多个独立变量(x1,x2,x3 ......等)

  • 5

    不能同意上述评论 . 除此之外,还有更多的差异

    在线性回归中,假设残差是正态分布的 . 在Logistic回归中,残差需要是独立的,但不是正态分布的 .

    线性回归假设解释变量值的不断变化导致响应变量的不断变化 . 如果响应变量的值表示概率,则该假设不成立(在Logistic回归中)

    GLM(广义线性模型)不假设依赖变量和自变量之间的线性关系 . 但是,它假设logit模型中链接函数和自变量之间存在线性关系 .

相关问题