【统计学习】Model Inference(模型推断)

Posted on 2019-12-26
Symbols count in article: 1.1k Reading time ≈ 1 mins.

【统计学习】Model Inference(模型推断)

集成学习通过构建并结合多个学习器来完成学习任务，有时也被称为多分类器系统、基于委员会的学习等。集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能。

Bootstrap

Bootstap是一种再抽样算法,把样本看作总体，进行再抽样得到新的样本

从大小为n的原始训练数据集D中随机选择n个样本点组成一个新的训练集，这个选择过程独立重复B次，然后用这B个数据集对模型统计量进行估计（如均值、方差等）。由于原始数据集的大小就是n，所以这B个新的训练集中不可避免的会存在重复的样本。
统计量的估计值定义为独立的B个训练集上的估计值θ_b的平均

$\theta=\frac{1}{B} \sum_{b=1}^B \theta_b$

Maximum Likelihood(最大似然)

似然估计必须已知分布。思想是现在有一个样本$X_1,X_2,…,X_n$,找出是怎样的参数最可能产生这样的样本。方式是根据已知分布和样本求出似然函数，并最大化似然函数

$argmax_\theta L(\theta;X)$

Beyesian Model(贝叶斯模型)

就是为了找到对于某个输入$x$下每类正确的概率，先找到某类下，出现各个输入的概率，然后利用贝叶斯公式求出。

【统计学习】Model Assessment(模型评估)

Posted on 2019-12-26
Symbols count in article: 1.7k Reading time ≈ 2 mins.

【统计学习】Model Assessment(模型评估)

Hold-out(留出法)

Divide samples to two parts-Test samples、Train samples randomly. And then assess the result. To increase the reliability of result , we often repeat this process several times.And take the average of assessment.
就是分成2部分，测试集和训练集，随机地划分。并对结果进行评估。评估会进行多次，然后取平均值。

$D=S\bigcup T,S\bigcap T=\emptyset$

S很大时，结果会不够稳定准确，S很小时，会丧失保真性（fidelity）

k-fold cross validation(k折交叉验证)

Divide samples to k similar parts,

$D=D_1\cup D_2\cup D_3...,D_i\cap D_j=\emptyset$

Everytime use k-1 subsets as Train set ,the rest set as Test set,and take the same operation on k set,then calculate the average as the assess result.

每次用k-1个子集作为训练集，剩下一个作为测试集，对K个集合都执行这样的操作，然后取平均值

Leave-One-Out(留一法)

in k-fold cross validation ,k=m

【统计学习】Logistic Regression

Posted on 2019-12-26
Symbols count in article: 246 Reading time ≈ 1 mins.

【统计学习】Logistic Regression

1.Function

$g(x)=\frac{1}{1+e^{-x}}\\h_\theta(x)=g(\theta^Tx)$

将直接的线性函数使用函数g后映射到0~1之间（>0.5为正类，小于0.5为负类）

cost function

因为平方差不是凸函数，所以寻找另一个凸函数作为loss.
性质
1.如果$h_\theta=1$说明正好是预测的，于是loss=0;
可以合并

2.多分类问题
训练多个分类器，每个把某类当做正类，其余当做父类。
最后分别计算概率

【统计学习】Linear Model with Least Squares

Posted on 2019-12-26
Symbols count in article: 2k Reading time ≈ 2 mins.

【统计学习】Linear Model with Least Squares

Basis Linear Model

$RSS(\beta)=\sum_{i=1}^{N}(y_i-x_i^T\beta)^2\\=(y-X\beta)^T(y-X\beta)$

对$\beta$求导
$X^T(y-X\beta)=0\\\hat{\beta}=(X^TX)^{-1}X^Ty$

Matrix Deduction

Code

import numpy as np;
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt


#生成两个满足高斯分布的数据集
c=[]
x1=np.random.normal(1,10,100)
y1=np.random.normal(1,10,100)
x2=np.random.normal(12,5,100)
y2=np.random.normal(12,5,100)
for i in range(100):
    c.append([x1[i],y1[i],0])
    c.append([x2[i],y2[i],1])


#线性回归

#计算参数beta
c=(np.matrix(c))
y=c[:,[2]]
X=np.matrix(c[:,[0,1]])
bt=np.dot(X.T,X)
bt=np.linalg.pinv(bt)
bt=np.dot(bt,X.T)*y
print(bt)

#对样本的预测
haty=X*bt
print(haty)
plt.plot()

print(bt)

#绘制模拟分类边界
simulate_X=np.arange(-24,24,0.5)
S_X=[]
for x in simulate_X:
    S_X.append([x,(0.5-x*bt[0,0])/bt[1,0]])
S_X=np.matrix(S_X)
plt.plot(S_X[:,0],S_X[:,1])
#plt.show()




plt.scatter(x1,y1)
plt.scatter(x2,y2)
plt.show()

似然估计方式

首先定义数据集因变量y、参数$\omega$、数据集自变量X

【统计学习】K-Nearest Neighbors(KNN)

Posted on 2019-12-26
Symbols count in article: 1.6k Reading time ≈ 1 mins.

【统计学习】K-Nearest Neighbors(KNN)

算法实现

1.算出输入点与每个点的距离
2.对距离排序
3.选出最邻近K个点进行投票
4.分到投票数最多的类

算法详解

K最邻近分类模型属于“基于记忆”的非参数局部模型，这种模型并不是立即利用训练数据建立模型，数据也不再被函数和参数所替代。在对测试样例进行类别预测的时候，找出和其距离最接近的K个样例，以其中数量最多的类别作为该样例的类预测结果。
其属于生成模型
K 值会对算法的结果产生重大影响。K值较小意味着只有与输入实例较近的训练实例才会对预测结果起作用，容易发生过拟合；如果 K 值较大，优点是可以减少学习的估计误差，缺点是学习的近似误差增大，这时与输入实例较远的训练实例也会对预测起作用，是预测发生错误。在实际应用中，K 值一般选择一个较小的数值，通常采用交叉验证的方法来选择最有的 K 值。随着训练实例数目趋向于无穷和 K=1 时，误差率不会超过贝叶斯误差率的2倍，如果K也趋向于无穷，则误差率趋向于贝叶斯误差率。

$L_d$距离就是相减d次方和再开d次方

[以下内容转于https://zhuanlan.zhihu.com/p/25994179]

数据的归一化很重要

Code

import numpy as np;
import seaborn as sns
import math
import pandas as pd
import matplotlib.pyplot as plt






#距离计算函数
def ComputeEuclideanDistance(x,y):
    tx=np.matrix(x).T
    ty=np.matrix(y).T
    return math.sqrt((tx-ty).T*(tx-ty))

#获取K个近邻点
def getNeighbors(dataset,curx, k):
    neighbors=[]
    x_withdis=[]
    for d in dataset:
        #print(d)
        x_withdis.append(   [d[0,0] ,d[0,1],d[0,2] , (ComputeEuclideanDistance(d[:, [0, 1]], curx))] )
    x_withdis=np.array(x_withdis)
    sarg=np.argsort(x_withdis[:,3])  #对距离排序
    #print(np.matrix(x_withdis[sarg]))
    for a in range(k):
        neighbors.append(x_withdis[sarg[a]])

    return np.matrix(neighbors)

#生成两个满足高斯分布的数据集
c=[]
x1=np.random.normal(1,10,100)
y1=np.random.normal(1,10,100)
x2=np.random.normal(12,5,100)
y2=np.random.normal(12,5,100)
for i in range(100):
    c.append([x1[i],y1[i],0])
    c.append([x2[i],y2[i],1])




c=np.matrix(c)
#print(c)

plt.scatter(x1,y1)
plt.scatter(x2,y2)

verge=[]
for r in np.arange(-24,24,0.5):
    for j in np.arange(-24,30,0.5):

        n = getNeighbors(c, [r, j], 5)
        c_0 = 0
        c_1 = 0
        #投票
        for i in n:
            if (i[0, 2] == 1):
                c_1 = c_1 + 1
            else:
                c_0 = c_0 + 1
        if (abs(c_0-c_1)<=1):
            verge.append([r,j])
            #print([r,j,0])
            #plt.scatter(r,j,marker='x',c='b')
    print(r)
verge=np.matrix(verge)
plt.plot(verge[:,0],verge[:,1])
plt.show()

【统计学习】K-Means

Posted on 2019-12-26
Symbols count in article: 946 Reading time ≈ 1 mins.

【统计学习】K-Means

$J_e=\sum_i^c\sum_{x\in D_i }||x-m_i||^2\\m_i=\frac{1}{n_i}\sum_{x\in D_i}x$

该公式假设类别分布是球形的。否则可能和主观感觉不太一样

算法条件

K-Means算法的特点是类别的个数是人为给定的，如果让机器自己去找类别的个数，我们有AP聚类算法，
K-Means的一个重要的假设是：数据之间的相似度可以使用欧氏距离度量，如果不能使用欧氏距离度量，要先把数据转换到能用欧氏距离度量，这一点很重要。

算法简述

K-Means的著名解释

有四个牧师(指定类别个数-s1)去郊区布道，一开始牧师们随意选了几个布道点(随机初始化-s2)，并且把这几个布道点的情况公告给了郊区所有的居民，于是每个居民到离自己家最近的布道点去听课(计算欧氏距离-s3)。
听课之后，大家觉得距离太远了，于是每个牧师统计了一下自己的课上所有的居民的地址，搬到了所有地址的中心地带，并且在海报上更新了自己的布道点的位置(布道点改变，向所有类别中心移动-s4)。
牧师每一次移动不可能离所有人都更近，有的人发现A牧师移动以后自己还不如去B牧师处听课更近，于是每个居民又去了离自己最近的布道点(第二轮迭代)……
就这样，牧师每个礼拜更新自己的位置，居民根据自己的情况选择布道点，最终稳定了下来。

随机生成的类别(s1)

随机生成k个点，并对每个点进行分类(s2)

伪代码

function K-Means(输入数据，中心点个数K)
获取输入数据的维度Dim和个数N
随机生成K个Dim维的点
while(算法未收敛)
    对N个点：计算每个点属于哪一类。
    对于K个中心点：
        1，找出所有属于自己这一类的所有数据点
        2，把自己的坐标修改为这些数据点的中心点坐标
end
输出结果：
end

【统计学习】EM Algorithm(EM算法)

Posted on 2019-12-26
Symbols count in article: 4.1k Reading time ≈ 4 mins.

【统计学习】EM Algorithm(EM算法)

和贝叶斯方法一样，必须是知道了分布下，才能使用。其可以用来处理一类含有隐变量的问题。一般用于无监督分类。同时还有一些进化的算法。
对于已知分布，分布参数未知，且含有隐变量的问题(如200个人的男女生身高数据，分别为$M\sim N(\mu_1,\sigma^2)$和$F\sim N(\mu,\sigma^2)$(已知分布，参数未知),但只有身高数据,不知道哪个身高是男是女的。现在我们要对其进行分类。分出对于某个身高到底是男还是女的这样的问题。这个问题中包含了隐变量Z={男、女})
解决此类问题的思想是，首先随机初始化分布的参数。然后由该参数下，似然估计出隐变量的分布(E步)。然后再由隐变量的分布似然估计出参数(M步)…..这样一直迭代。结果会一次比一次好(证明略)，会靠近真实值，但未必最终能取到真实值

Maximum Likelihood

为了解决这个问题我们先从简单的开始
现在有一个男生的身高样本集合（200个样本）$X\sim N(\mu,\sigma^2)$
参数未知。
那么我们可以用最大似然估计来估计参数。

分布图

import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import math
def getdatas1():
    d=np.random.normal(172,8,200)
    return d

d1=getdatas1()
d2=pd.DataFrame(d1,columns=['身高'])
print(d2)
sns.distplot(d2)
plt.show()
#似然估计
hat_mu=np.mean(d2)
hat_sigma=math.sqrt(np.mean(np.power(d2-hat_mu,2)))
print([hat_mu,hat_sigma])

似然估计结果:

$[\mu: 171.736039 , \sigma:8.311671773061763]$

现在考虑复杂一些的情况。现在女生的身高数据也加了进来
服从另一个正态分布。
于是现在的情况是

$M\sim N(\mu_1,\sigma_1^2),F\sim (\mu_2,\sigma_2^2)\tag{M为男,F为女}$

现在数据集大概这样

现在讨论两个问题
1.根据数据集，如何估算出两个分布的参数
这个问题很好办。把相同性别的数据取出来，然后像上面一样进行似然估计就可以了

给定一个身高数据，如何其判断性别
知道两个分布的参数后，这个也很好办，只需要利用似然估计，判断属于哪一类的可能性更大就行
也就是判断$\frac{1}{\sqrt{2\pi}\sigma_1}exp\{\frac{(x_i-\mu_1)^2}{2\sigma_1^2}\}$和$\frac{1}{\sqrt{2\pi}\sigma_2}exp\{\frac{(x_i-\mu_2)^2}{2\sigma_2^2}\}$哪个更大。

EM Algorithm

【统计学习】Curse of dimensionality(维度灾难)

Posted on 2019-12-26
Symbols count in article: 2.1k Reading time ≈ 2 mins.

【统计学习】Curse of dimensionality(维度灾难)

参考原文 https://blog.csdn.net/zbc1090549839/article/details/38929215

MSE（均方误差）
RMSE （均方根误差）
MAE（平均绝对误差）

维度灾难简介

当特征增多（也就是维数增加时）分类器性能逐渐上升，但是到达某点后开始下降。

维度灾难原因和过拟合

维度为1时（一个特征）

维度为2时，依然没办法很好分类

再加一个特征，此时很容易找到一个平面进行分类

从1维到3维，给我们的感觉是：维数越高，分类性能越优。然而，在Figure 1中，我们说维数过高将导致一定的问题：具体来说，在一维特征空间下，我们假设一个维度的宽度为5个单位，这样样本密度为10/5=2;在2维特征空间下，10个样本所分布的空间大小55=25，这样样本密度为10/25=0.4;在3维特征空间下，10个样本分布的空间大小为55*5=125，样本密度就为10/125=0.08.

如果我们继续增加特征数量，随着维度的增加，样本将变得越来越稀疏，在这种情况下，也更容易找到一个超平面将目标分开。然而，如果我们将高维空间向低维空间投影，高维空间隐藏的问题将会显现出来：

也就是随着维数增加，样本密度变得越来越小。高维空间隐藏的问题开始显现出来

【统计学习】Concept of Generative Modeling(GM) and Discriminative Modeling(DM)

Posted on 2019-12-26
Symbols count in article: 626 Reading time ≈ 1 mins.

【统计学习】Concept of Generative Modeling(GM) and Discriminative Modeling(DM)

Generative Modeling(GM:生成模型)

生成模型是根据联合概率分布$P(X,Y)$然后求出概率分布$P(Y|X)$的模型

$P(Y|X)=\frac{P(X,Y)}{P(X)}$

典型GM

朴素贝叶斯

首先想办法弄出$P(X|Y)$
然后根据条件概率公式干出联合概率$P(X,Y)$
最后求出$P(Y|X)$

HMM(隐马尔科夫模型)

就是一个马尔科夫网络。状态隐藏。只能观察到输出

Discriminative Modeling(DM:判别模型)

判别模型是由训练数据直接学习决策函数f(X)或者条件概率分布P(X,Y)作为预测的模型，模型关心的是对给定的输入X，应该预测什么样的输出Y

【统计学习】Common optimization method(常见优化方法)

Posted on 2019-12-26
Symbols count in article: 1.3k Reading time ≈ 1 mins.

【统计学习】Common optimization method(常见优化方法)

Gradient Descent

$h(\theta)=\sum_{j=0}^n \theta_jx_j$ $J(\theta)=\frac{1}{2m}\sum_{i=1}^m (y^i-h_\theta (x^i))^2$

Batch Gradient Descent

(1)First,calculate partial derivation $J(\theta)$ with respect to $\theta$

$\frac{\partial J(\theta)}{\partial \theta_j}=-\frac{1}{m}\sum_{i=1}^m (y^i-h_\theta(x^i))x_j^i$

(2)Update

It will get a global optimum solution.But each iteration it will use all the data of training dataset.This will be very slow if m very big

Stochastic Gradient Descent (SGD)

和 BGD 的一次用所有数据计算梯度相比，SGD 每次更新时对每个样本进行梯度更新，对于很大的数据集来说，可能会有相似的样本，这样 BGD 在计算梯度时会出现冗余，而 SGD 一次只进行一次更新，就没有冗余，而且比较快，并且可以新增样本。

for i in range(nb_epochs):  #迭代
   np.random.shuffle(data)  #随机打乱
   for example in data:   #迭代每条数据
   params_grad = evaluate_gradient(loss_function, example, params) #评估梯度
   params = params - learning_rate * params_grad

Mini-Batch Gradient Descent （MBGD）