Logistic Regression 学习笔记

weilwawa
0 ℃
2020-10-16

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

LogisticRegression介绍LogisticRegression是机器学习中监督学习的一种，用于数据的分类预测。假设事件的样本有n个特征，记为x=(x1,x2,x3,…,xn)，样本的分类为y（y=0或1）。对于样本x来说，令P(y=1|x)为y=1的概率，P(y=0|x)为y=0的概率，那么满足：P(y=1|x)+𝑃(𝑦=0|𝑥)=1令w=(w1,w2,w3,…,wm)∈Rm，b∈R，并令φ=𝑤1𝑥1+𝑤2𝑥2+⋯+𝑤𝑚𝑥𝑚+𝑏可以看出φ是样本特征x的线性组合。我们选择φ作为样本x满足P(y=1|x)的置信度（也就是说当φ值越大时y为1的概率越大，φ值越小时y为1的概率越小），并且认为样本的特征满足以下关系：ln𝑃(𝑦=1|𝑥)𝑃(𝑦=0|𝑥)=𝜑结合上面的公式可以得到P(y=1|x)=11+𝑒−𝜑=11+𝑒−(∑𝑤𝑖𝑥𝑖+𝑏𝑚𝑖)在这个公式中，wi和b都是参数，对于给定的样本x，只有确定这些参数才能得到P(y=1|x)的值，从而判定y是否为1。假设我们观测到一类事件，它有正反两种可能的结果，我们从事件中提取了m个特征，并认为事件的结果就是由这m个特征决定的，那么当我们遇到一个新的事件时，我们想从这m个特征来推断这个新的事件的可能的结果。举个例子，我们要去去买西瓜，买来的西瓜的两种可能的结果是“好瓜和“坏瓜”，我们发现这个结果和西瓜的几个特征：表面的纹理、敲击的响声、根蒂的样式、瓜体的形状有关，我们的目标是确定出这几个特征和结果（好瓜？坏瓜？）的明确关系，也就是得到以上公式中的参数值。这些参数我们无法猜测出来，唯一可行的方法就是先去买一车瓜，观察每个瓜的特征，然后一刀切开判断是好瓜还是坏瓜，然后记录下每个案例。通过这些案例来推断公式中的参数的可能的值，花的钱就算是学习代价了。极大似然法则：假定随机变量x符合某个分布P(x)=f(x)，其中f(x)是关于x的函数，有多个未知参数。我们无法直接求得这些参数，但是我们可以通过观察得到x的一些采样的样本x1,x2,…,xn,既然能够抽样得到这些样本，那么我们就期望这些样本出现的概率能够得到最大化，并且w和b为使这些样本出现的概率最大化的值：P=∏𝑃(𝑥𝑖)𝑚𝑖所有样本出现的概率(𝑤∗,𝑏∗)=arg𝑚𝑎𝑥𝑤,𝑏P=arg𝑚𝑎𝑥𝑤,𝑏∏𝑃(𝑥𝑖)𝑚𝑖w*和b*是使总概率P达到最大值的参数使用极大似然法则解决LogisticRegression的问题。假定我们有m个样本（x1,y1）,（x2,y2）,…（xm，ym），我们前面给出了P(y=1|x)的计算公式，这个值越接近于1则y为1的概率越大，这个值越接近于0则y为0的概率越大。我们用f(x)来代表P(y=1|x)的计算公式，那么我们可以选择以下的公式作为（xi,yi）被采样出来的概率：p(𝑥𝑖,𝑦𝑖)=f(𝑥𝑖)𝑦𝑖∗(1−𝑓(𝑥𝑖))(1−𝑦𝑖)显然如果采样结果yi为0那么p=1-f(xi)，如果yi为1那么p=f(xi)。p值越大，代表着xi被采样出来并且结果为yi的概率越大。(𝑤∗,𝑏∗)=𝑎𝑟𝑔𝑚𝑎𝑥𝑤,𝑏∏𝑝(𝑥𝑖,𝑦𝑖)𝑚𝑖=𝑎𝑟𝑔𝑚𝑎𝑥𝑤,𝑏[𝑙𝑛∏𝑝(𝑥𝑖,𝑦𝑖)]𝑚𝑖=𝑎𝑟𝑔𝑚𝑎𝑥𝑤,𝑏∑ln(𝑝(𝑥𝑖,𝑦𝑖))𝑚𝑖=𝑎𝑟𝑔𝑚𝑎𝑥𝑤,𝑏∑ln(𝑓(𝑥𝑖)𝑦𝑖∗(1−𝑓(𝑥𝑖))(1−𝑦𝑖)))𝑚𝑖=𝑎𝑟𝑔𝑚𝑎𝑥𝑤,𝑏∑𝑦𝑖lnf(𝑥𝑖)+(1−𝑦𝑖)ln(1−𝑓(𝑥𝑖))𝑚𝑖