当前位置:网站首页>数据分析模型 第一章

数据分析模型 第一章

2020-12-20 09:16:35 osc_gq57ni0z

一. 基本介绍

在大学就读期间,对于数据分析模型这门课,我上下来的感觉就是基础的统计离散数学,这门课会给你讲一些最基础的统计知识很贴近我们高中的一些数学知识,数据分析模型这课的进阶是高等数据分析。
数据分析模型和高等数据分析均是深度学习也就是关于人工智能的基础课程也是数据科学专业范畴下的,也正是小弟我的专业。大家可以看下我写的另一份博客—数据分析模型 目录,从而对这门课有一个更直观的认识。
这里我把老师推荐这门课的读物也推荐给大家,感兴趣自学的同学可以参考。
Ross, S.M. (2014) Introduction to Probability and Statistics for Engineers and Scientists, 5th ed. Academic Press.


英语不好的同学也可以上网查找其的汉化版以便自学使用。

二. 模型

什么是模型,在数据科学范畴内,模型是数学或逻辑的表达式或者是方程。说白了你也可以理解为给它个输入,它给你个想要的输出。
模型没有绝对的对和错,但是对于不同的目的,它们可以被称为相对有用或相对没用。

  • 例子:
    1. 一个模型A(关于飞机信息的数学模型)可以呈现相对的机翼和机身的维度
    2. 一个模型B(备择模型,alternative model)可以更精准的呈现该飞机的空气中的流动行为。* 备择模型:是对于原模型来说是其对立的模型。

如果我们研究飞机的比例,或者飞机的形状制作,我们利用模型A,如果研究飞机在飞行时的状态,我们选择模型A的对立模型。

接下来带大家看看运用在数据科学里的几个最基础的模型,这里目的仅仅大体介绍下常见模型,并非讲的深入,后续会分别细讲,在此只是带大家粗略的了解下

一. 分类模型(分类器)

分类器作为分类函数模型将数据按若干类区分开从而预测未来的数据类型。分类器例如决策树,逻辑回归,和深度学习里的神经网络,后续我们均会讲到。当然这张图仅仅有男女两类,我们也可称这种分类器为binary classifier(二元分类器)。根据自变量X(例如发长,喉结,衣服),通过你的模型或数学逻辑方程(y=f(X))来预测因变量y(例如y=0为女生,y=1为男生)。

二. 概率分类器

概率分类器,类似于传统分类器,其区别仅仅是利用概率来分辨属于哪一类,即计算每个类别的概率。

三. 回归模型
在这里插入图片描述
通过你的的一系列数据(自变量X和因变量Y),你得到了一个方程(模型),带入自变量到方程(模型)中你获得预测因变量的数值。如图假如每个人有自己得时薪,最高时薪100元,那么你可以通过方程和该人的工作信息来预测其他人的时薪。这里的方程叫做回归方程(回归方程有,线性回归方程,逻辑回归方程,惩罚回归方程(岭回归,拉索回归)后续会一一解释)。这里为什么总是强调X值和Y值,X值和Y值作为你的数据(data)来找到符合或者可以解释这些数据的模型。分类器或者概率分类器和回归模型均需要有X值和Y值才能找到对应具体的模型,例子,假如你有一组数据均有X值和Y值符合2x+1=y这个函数或者模型,我们都知道该函数是一元一次方程,具体怎样才能找到a=2,b=1,这个2x+1=y的一元一次方程,我们需要有相关的X值和Y值的数据才能找到该模型的参数。所以用你的数据X值和Y值才能找到具体适合解释我们具有的数据的模型。这类方法在深度学习里叫做监督式学习,利用计算机找到预测误差较小的模型。

四. 簇类模型
在这里插入图片描述
簇类模型的数据是一般没有因变量y的,在深度学习里因变量y也被称为标签也可以叫真值。换句话说簇类模型根据自变量x来通过模型进行分类。对比我们之前提到的分类器,它与簇的区别在于,要找到具体的分类器是需要有因变量y。在深度学习里,有因变量和自变量找到模型的方法叫做可监督学习,只通过自变量找到模型的方法叫做非监督学习。对于簇类模型,根据上图的例子,我们可以根据人类性别特征(作为因变量x)来进行分类(例如喉结),因为我们没有因变量y值,我们无法得出是男(预测y值为1)是女(预测y值为0)。但我们可以用图像的方式呈现,男性的点会簇集在某个区域A,女性的点会簇集在另外一片区域B(所以叫簇类模型)。这样当我们根据自变量来预测时如果它对应的点在A区域我们认为它是男性,反之为女性。在深度学习里,簇类模型难以训练找到参数从而找到具体对应的模型,或者说非监督学习难以训练。好吧先说那么多,我们在此就粗略的回顾温习下常见的模型,大体知道它们干什么的就行。具体细节后面还会提到。

五. 预测模型(Forecasting)
预测模型和之前讲的模型很像,都是预测嘛。但不同点在于,上述的模型均是预测一个值,而预测模型更注重于预测一个值的变化或者预测一系列的值。举个例子预测房价,你关注的点在于这个房价明天会涨还是会降,涨幅多少,降低多少,或者长期的这个房价的变化幅度。当然了,举个例子你可以用分类器来作为你的预测模型,例如是否需要买进,或卖出。但它的关键点在于,给予过去的信息,你要尽可能预测准确对于未来一系列的数据。

六. 异常检测模型(Anomaly Detection)
根据平常的数据检测一些异常数据。举个例子,一个人平常每天花费转账就100块,一天晚上他突然花费或转账1W块。那么这个行为被模型检测为异常。再举个例子,假如一个记录步数的软件给老年人用的,这个软件记录了老年人平常每天出去散步多少米。但突然一天这个软件记录该老年人没出去走多少米,那么系统会认为这个老年人是不是病了或者摔倒了。

七.推荐系统模型(Recommended system)
例如你逛某宝,该模型会根据你平常关顾的商品来预测你的喜好,进而给你提供相关商品。

以上是几个最基础也最常见的模型,在此带大家了解下,具体里面更深入的知识后续会讲。

这里讲几个常见的统计术语:

  1. 总体(population):说白了就是对于一件事,你有大量的相关可测量的数据,用于找到你的模型。这些数据量往往对我们来说是无穷的。这些数据叫做总体
  2. 样本(sample):就是从总体当中挑选有穷尽数量的数据用来找到你的模型。所以数据量不足有时候使你找到的模型不饱和也就是说对于预测新数据不够准确,当数据量足的时候你找到的模型又过饱和也就是你的模型仅仅局限于预测你挑选的数据,无法预测新数据。当然这里只是简单的泛化的介绍下非饱和和过饱和概念,导致模型的非饱和,和过饱和的原因还有很多,这里先按下不表。总而言之样本即为从总体中挑选的数据。
  3. 模型(model):这里在啰嗦一句,模型在哲学上的含义是对该数据的解释(当然有许多模型复杂程度是我们无法解释的),模型在计算机方面的解释就是一套数学和逻辑的表达式,我们一般利用数据找到的模型没有对和错之分,只有相对有用和没有用。当你有了一大把数据,你想找一个模型可以解释和预测该类数据,你有两个问题需要解决,1.这模型长什么样子,2.这模型的参数是什么换句话说找到在该类模型下找到具体的或适合你数据的模型。当你解决这俩问题你才能认为你找到了该模型。例如之前有提到2x+1=y,a=2,b=1,当你已经知道这个模型是一元一次方程,那么a和b这两个参数可以通过你的数据找到。那我们怎么知道该模型是一元一次方程呢,早些时候,数学家利用一种泛化的函数尝试解释所有类型的数据,根据改变该泛化函数的参数或指数改变来大体近似模拟所有类型的数据,例如广义泛化函数,连加模型,还有多项式函数等等。利用数据找到模型这就是传说中的机器学习泛化解释,只不过在深度学习里,模型是神经网络(你可以把他当作一个万能的模型也就是泛化模型,可以解释或者模拟大量不同类别的数据,例如可以预测房价,垃圾分类等不同项目的问题)。有些数据是有X值和Y值,通过该数据找到的模型叫做可监督学习,而有写数据仅仅有X值无Y值,通过此数据找到的模型叫做非监督学习。一般做数据挖掘的人都知道,找和记录数据都挺耗人力和财力的,数据仅仅有X值是很常见的。这时就要利用数据的关系或者变化该数据来发现一些其他的事情。例子就像上述讲的男女分类簇类模型。再举一个例子:假如给了你许多鸟类照片(X值)但不给你说这是什么鸟(无Y值),我们可以利用转动照片来创造其他类型的数据创造Y值,这样我们的模型可以分辨是否该照片有被加工或者被反转,这就是变化该数据。当然这个方法其实还可以解决过饱和问题,至于为什么后续会再提到。

数据的形式的术语:
1 名义分类数据(categorical nominal data): 离散,有限,无序的数值,例如:性别,国籍
2.有序分类数据(categorical ordinal data):离散,有限,有序的数值,例如:教育水平(小,初,高,大学)
3.离散数值(numeric discrete):数字形式的数据,可枚举,可数的清,有穷数量。例如:几个正整数,几个负整数,多少在公司的员工未满18岁。
4.连续数值(numeric continue):数字形式的数据,不可枚举,数不清,无穷量。例如,大于0的实数,小于0的实数,身高(1米789321),体重,长度。 分类数据一般是定性,而数值数据一般是定量。



三. 随机变量和概率分布

样本里随机采样获得样本,也就是我们的数据,利用该样本(数据)找到适合的模型。
一. 随机变量(Random Variables):
假如计算掷出俩个骰子数值和为7的概率,我们其实更注重于是否俩个骰子和是否为7,至于到底是(1,6),(2,5),(3,4),(5,2),(6,1),(4,3)并不是我们这个实验的目的。这里的(1,6),(2,5),(3,4),(5,2),(6,1),(4,3)便是我们的随机变量。我们简单的计算下俩个骰子数值和为7的概率:P{X=7}=P{(1,6),(2,5),(3,4),(5,2),(6,1),(4,3)}=1/6 * 1/6 * 6=6/36。
X=7是我们的实验目的决定了我们随机变量为(1,6),(2,5),(3,4),(5,2),(6,1),(4,3)
当计算掷出俩个骰子数值和为12的概率时,即 X=12时, P{X=12}=P{(6,6)}=1/36。我们随机变量为(6,6)
由我们实验目的来决定我们的随机变量,而不是随机变量来决定我们的实验目的。那为什么这些变量叫随机变量呢,这里需要解释下什么叫做随机性,变量的随机性是由于这三点导致的--------实验的测量错误(测量的变量有误差),测量因素(有些变量的值不是因为误差而是因为我们有些因素的疏忽导致变量测量不准确)和随机取样(随机从总体内取样)。那么具有该随机性的变量即为随机变量。
在离散数学和连续数学领域里,简单的说,随机变量就是我们的数据样本,而这些随机变量可能会服从或者符合某个概率分布(模型).





二. 概率分布(Probability distribution)
如上述所说,概率分布就是一种模型来解释我们的数据即随机变量。写法: P(X=x), x∈XX相当于总体,x为样本.
例如掷一个骰子掷出1的概率是1/6,即P(X=1)=1/6。它的概率分布其实是x轴,x∈X={1,2,3,4,5,6},其对应y轴P(X)的值均为1/6, 6个离散的点。

性质1:
P(X=x)∈[0,1], 对于所有x∈X,满足:
∑ x ∈ X P ( X = x ) = 1   \sum_{x∈X} P(X=x) =1\, xXP(X=x)=1
性质2:
P(X∈A1∪A2)=P(X∈A1)+P(X∈A2)-P(X∈A1∩A2)
∪并集(union set), ∩交集(intersection set), 集合是高中数学概念这里不再赘述。




性质3:
联合概率(joint probability)
当我们研究2个或2个以上的随机变量关系时,我们会计算它的联合概率。
假如这里有两组随机变量(RVs), X和Y
X={1,2,3}, Y={1,2},那么
X x Y={ {1,1},{2,1},{3,1},{1,2},{2,2},{3,2}}, 这样我们可以定义它为 P(X=x, Y=y) ∈[0,1]。
对于P(X=x, Y=y) ∈[0,1], 所有x∈X,y∈Y,满足:
∑ x ∈ X , y ∈ Y P ( X = x , Y = y ) = 1   \sum_{x∈X,y∈Y} P(X=x, Y=y) =1\, xX,yYP(X=x,Y=y)=1
如果X和Y这两类变量互不影响则
P ( X = x , Y = y ) = P ( X = x ) ∗ P ( Y = y ) P(X=x, Y=y) = P(X=x)*P(Y=y) P(X=x,Y=y)=P(X=x)P(Y=y)
跟我们上述掷俩骰子(扔出这俩骰子得出俩数值,这两件事发生的概率互不影响)和为7大同小异的算法,当X=x时,Y=y时这两件事共同发生且互不干扰的概率.









那么如果X和Y这俩类变量(两类事件)互相干扰时,这时需要根据题意去计算。举个例子,假设骰子A的随机变量我们定为X,骰子B的随机变量我们定为Y。我们依旧想算俩个骰子掷出后数值和为7的概率,但是加个小条件,当骰子A抛出1,2,3这三个数值时我们才能掷骰子B。那么我们只能有(1,6),(3,4),(2,5)这三个。那么此时P(X=x,Y=y)=3 * 1/6 * 1/6 * 1/6. 此时P(X=1,2,3)= 3 * 1/6, 那么P(Y)=1/6 * 1/6,不是仅单单1/6.

性质4:
边缘概率(marginal probability)
P ( X = x ) = ∑ y ∈ Y P ( X = x , Y = y )   P(X=x)= \sum_{y∈Y} P(X=x, Y=y) \, P(X=x)=yYP(X=x,Y=y)
P(X=x) 被称为边缘概率,即所有Y=y,X=x的概率


性质5:
条件概率(conditional probability)
P ( X = x ∣ Y = y ) = P ( X = x , Y = y ) P ( Y = y )   = P ( X = x , Y = y ) ∑ x ∈ X P ( X = x , Y = y )     P(X=x | Y=y)= \frac{P(X=x,Y=y)}{P(Y=y)}\ = \frac{P(X=x,Y=y)}{\sum_{x∈X} P(X=x, Y=y)\,}\, P(X=xY=y)=P(Y=y)P(X=x,Y=y) =xXP(X=x,Y=y)P(X=x,Y=y)
P(X=x | Y=y)为条件概率,翻译过来的意思是,当给定Y=y的概率时,那么X=x的概率.
这里要注意的是如果两个随机变量也相互独立,那么
P ( X = x ∣ Y = y ) = P ( X ) . P(X=x | Y=y)= P(X). P(X=xY=y)=P(X).
举个例子: 如下图
在这里插入图片描述
别太纠结P(X=1,Y=1)为啥是0.05,我们默认这些值是对的哈,即P(X=1,Y=1)=0.05, P(X=2,Y=1)=0.15, 等等。
那么,
P(Y=1)=0.05+0.15+0.1=0.3 (边缘概率).
P(X=1|Y=1)=P(X=1,Y=1)/P(Y=1)=0.05/0.7 (条件概率).










当在同一个分布下的时候,它的随机变量也互不干扰,这类变量我们称为独立同分布(independent and identically distributed, 简写i.i.d) 例如上述两个筛子,抛出第一个筛子的概率分布和抛出第二个筛子的分布相同,且随机变量X和Y互相独立,则X,Y为i.i.d, P(X=1)=P(Y=1)=1/6。
即如果X1,X2 是i.i.d,那么P(X1=x)=P(X2=x), 对于所有x1,x2∈X。换句话说,你也可以认为他们的边缘概率相同。

三. 连续随机变量(continuous random variables )
我们之前讲的随机变量均为离散随机变量,例如骰子只能有正整数1,2,3,4,5,6这6个随机变量. 这次我们叫我们的随机变量属于实数,即X符合机率密度函数(probability density function,简写pdf) p(x)
那么, 该pdf,对于所有x∈X, 满足:
1 > p ( x ) > = 0 , 和 ∫ X p ( x ) d x = 1 1>p(x)>=0, 和 \int_{X}^{}p(x)\mathrm{d}x=1 1>p(x)>=0,Xp(x)dx=1
如果X 在(a,b)区间内,则为:
P ( a < X < b ) = ∫ a b p ( x ) d x P(a<X<b)=\int_{a}^{b}p(x)\mathrm{d}x P(a<X<b)=abp(x)dx




假如(x0- δ / 2 \delta/2 δ/2<X<x0+ δ / 2 \delta/2 δ/2),那么它的概率的图像为阴影部分,即为它的概率:
在这里插入图片描述

其实也就是连续函数的微积分求反导,算它的阴影面积,P(x0- δ / 2 \delta/2 δ/2<X<x0+ δ / 2 \delta/2 δ/2)=P(x0+ δ / 2 \delta/2 δ/2)-P(x0- δ / 2 \delta/2 δ/2),大面积减去小的面积。我们可以把它的写法写的更帅点:
A δ = ( x 0 − δ / 2 , x 0 + δ / 2 ) A_{\delta}=(x0-\delta/2,x0+\delta/2) Aδ=(x0δ/2,x0+δ/2)
P ( x ∈ A δ ) = ∫ x 0 − δ / 2 x 0 + δ / 2 p ( x ) d x = [ ∫ p ( x ) d x ] x = x 0 + δ / 2 − [ ∫ p ( x ) d x ] x = x 0 − δ / 2 ≈ x 0 ∗ δ P(x∈A_{\delta})=\int_{x0-\delta/2}^{x0+\delta/2}p(x)\mathrm{d}x=[\int p(x)\mathrm{d}x]_{x=x0+\delta/2}-[\int p(x)\mathrm{d}x]_{x=x0-\delta/2} \approx x0*\delta P(xAδ)=x0δ/2x0+δ/2p(x)dx=[p(x)dx]x=x0+δ/2[p(x)dx]x=x0δ/2x0δ
所以当 δ \delta δ 趋近于0时:


  1. A δ A_{\delta} Aδ趋近于x0。
  2. P(x∈ A δ A_{\delta} Aδ)趋近于0,阴影面积就那一细毫,因为dx很小,微元。当 A δ A_{\delta} Aδ=x0时,P(X=x0)= ∫ x 0 x 0 f ( x ) d x \int_{x0}^{x0}f(x)\mathrm{d}x x0x0f(x)dx=0, 这一丝的值其实为0。

两个连续随机变量 X和Y:
1. 边缘概率
那么x的边缘概率为 p ( x ) = ∫ p ( x , y ) d y p(x)=\int p(x,y)\mathrm{d}y p(x)=p(x,y)dy
若P(X∈A)= ∫ A ∫ p ( x , y ) d y d x \int_{A}\int p(x,y)\mathrm{d}y\mathrm{d}x Ap(x,y)dydx,当你算出了p(x)时,我们得到了该x的概率分布,因为x∈A,我们依然要用反导求对应A的面积。


2.联合概率
两个连续变量X和Y的联合概率:
若X,Y独立则:
P ( X ∈ A , Y ∈ B ) = ∫ B ∫ A p ( x , y ) d x d y P(X∈A,Y∈B)=\int_{B}\int_{A}p(x,y)\mathrm{d}x \mathrm{d}y P(XAYB)=BAp(x,y)dxdy
再举个例子: X1,X2,…Xn互相独立则
P ( X 1 ∈ a 1 , X 2 ∈ a 2 , . . . . , X n ∈ a n ) = ∫ A n ∫ A n − 1 . . . . . ∫ A 1 p ( x 1 , x 2 , . . . . , x n ) d x 1 d x 2... d x n P(X1∈a1,X2∈a2,....,Xn∈an)=\int_{An}\int_{An-1}.....\int_{A1}p(x1,x2,....,xn)dx1dx2...dxn P(X1a1,X2a2,....,Xnan)=AnAn1.....A1p(x1,x2,....,xn)dx1dx2...dxn
若X,Y不独立,那需要根据题意计算,跟离散变量的联合概率大同小异。





3.条件概率
P(X|Y)= p ( x , y ) p ( y ) = p ( x , y ) ∫ p ( x , y ) d x \frac{p(x,y)}{p(y)}=\frac{p(x,y)}{\int p(x,y)dx} p(y)p(x,y)=p(x,y)dxp(x,y),该公式分母即为y的边缘概率。
若X,Y独立,则:
P(X|Y)=P(X)= ∫ p ( x , y ) d y {\int p(x,y)dy} p(x,y)dy


四. 累计连续方程(Cumulative distribution functions, 简写cdf)
其实我们上述已经涉及到累计,就是连续函数的反导阴影面积,即多个微元的连加。

对于连续变量来说它的cdf为:
P ( X < = x ) = ∫ − ∞ x p ( x ) d x P(X<=x)=\int_{-\infty}^{x} p(x)\mathrm{d}x P(X<=x)=xp(x)dx
对于离散变量来说它的累计方程为:
P ( X < = x ) = ∑ P ( x )   P(X<=x)= \sum_{} P(x) \, P(X<=x)=P(x)
这里啰嗦一句:
P ( X > x ) = 1 − P ( X < = x ) P(X>x)=1-P(X<=x) P(X>x)=1P(X<=x)




在统计里面,Q( p ) ={P(X<=x)=p}, 如果Q(p=1/2) 则为中部(median), 如果Q(p=1/4)是第一四分位数(first quartile), 如果Q(p=3/4)则为第三四分位数(third quartile).

四. 结语

自习的同学可以看看Ross, S.M. (2014) Introduction to Probability and Statistics for Engineers and Scientists, 5th ed. Academic Press. 第4章。

版权声明
本文为[osc_gq57ni0z]所创,转载请带上原文链接,感谢
https://my.oschina.net/u/4297302/blog/4816811

随机推荐