R语言统计入门-第三章

Feb 27, 2018 6 分钟阅读时长 R, 统计

第三章概率与分布

3.1 随机抽样

#在R中，如果想进行随机抽样，比如从1-40中随机抽取5个数字
#sample函数中，第一个参数1:40表示被抽样的值向量
#第二个参数5是抽样大小
sample(1:40,5)

## [1] 37 16 30 21 18

#值得注意的是，sample函数默认是无放回抽样
#如果想进行有放回抽样，需要加上参数replace=TRUE
#有放回抽样适用于投硬币或掷骰子模型
#比如模拟10次投硬币
sample(c("H","T"),10,replace=T)

##  [1] "H" "H" "T" "T" "H" "H" "T" "T" "H" "H"

#可以用prob参数来模拟那种结果具有不相等概率的数据
#比如成功的几率是90%
sample(c("succ","fail"),10,replace=T,prob=c(0.9,0.1))

##  [1] "succ" "succ" "succ" "succ" "succ" "fail" "succ" "succ" "succ" "succ"

3.2 概率计算与排列组合

#使用prod函数，进行连乘
#比如36×37×38×39×40
prod(40:36)

## [1] 78960960

#如果这是一种类似于乐透彩票的游戏，需要正确猜对5个数字
#第一个数字有5种可能，第二个有4种可能，以此类推
#那么赢奖的概率为
prod(5:1)/prod(40:36)

## [1] 1.519738e-06

#计算从40个数字中选取5个的所有可能
#可以用choose函数
choose(40,5)

## [1] 658008

#那么概率即为
1/choose(40,5)

## [1] 1.519738e-06

3.3 离散分布

当观察一个独立重复二项实验时，通常对每次实验的成功或失败并不感兴趣，更感兴趣的是成功或失败的总数。显然，这个总数是随机的，因为它依赖于每一次随机结果，因此被称为随机变量。

它是一个可以取值0,1,2,3，……，n的离散值的随机变量。

随机变量\[X\]具有概率分布，可以用点概率\[f(x)=P(X=x)\]或累计分布函数\[F(x)=P(X=x)\]描述。在上述二项分布情形下，分布可以用点概率来得到： \[ f(x)=(\begin{matrix} n\\ x\\ \end{matrix})p^x(1-p)^{n-x} \]

其中 \[ (\begin{matrix} n\\ x\\ \end{matrix}) \] 被称为二项系数。参数P是一次独立实验中成功地概率。

3.4 连续分布

有些数据来自于对实质连续尺度的测量，比如温度什么的。这种测量通常包含随机变化的因素，这使得测量很难被完全重复。然而，这种随机波动会遵循某种模式：它会集中在某个中心值附近，大的偏差比小的要少得多。

为了连续数据建模，需要定义能包含任意实数值的随机变量。因为有无穷的数字无限接近，任何特定值的概率是0，所以这里没有像离散型随机变量那样的点概率的说法，取而代之的是密度的概念。

它是指x的一个小邻域的无穷小概率除以区域的大小。累计分布函数的定义如前，并且有下面的关系： \[ F(x)=\int_{-\infty}^\infty{f(x)dx} \] 在统计理论中有许多常见的分布，可以在R中使用。先看下面几个例子。

均匀分布是在一个特定的区间（默认是[0,1]）上有常数密度。

正态分布（也成为高斯分布）具有密度： \[ f(x)=\frac{1}{\sqrt{{2\pi\sigma}}}exp(-\frac{(x-\mu)^2}{2\sigma^2}) \] 依赖于均值\[\mu\]和标准差\[\sigma\]。正态分布具有标志性的钟形曲线。

3.5 R中的内置分布

与建模和统计检验有关的常用标准分布都已经嵌入到R中，因此可以完全取代传统的统计表格。下面只看一下正态分布和二项分布。

对一个统计分布可以计算4项基本内容：

密度或点概率；
累计概率分布函数
分位数
伪随机数

对R中所有的分布，关于上面列出的4项都对应一个相应的函数，比如对于正态分布，它们分别为dnorm，pnorm，qnorm和rnorm（分别对应密度，概率、分位数和随机数）。

3.5.1 密度

连续分布的密度是“得到一个接近x的值”的相对可能性的度量。在一个特定区间得到一个值得概率是在相应曲线下的面积。

离散分布，密度用于点概率——恰好得到x值得概率。

#对于密度函数，可以如下进行
#函数seq用于产生等距数值，这里是从-4到4，步长为0.1
#type=“l“参数可以使函数在点与点之间划线而不是只画出点。
x <- seq(-4,4,0.1)
plot(x,dnorm(x),type="l")

#创建图形的另外一种方法是用curve
curve(dnorm(x), from=-4, to=4)

#对于离散分布，变量只能取明确值，更倾向于画针形图
#下面是n=50，p=0.33的二项分布图，type=“h”指定画出针形图
x <- 0:50
plot(x, dbinom(x,size=50, prob=.33),type="h")

3.5.2 累计分布函数

累计分布函数描述的是对一个给定分布小于或等于x的分布的概率。相应R函数按惯例以“p”开头。

比如，一种生化指标可以用均值132，标准差13的正态分布描述，而某个患者的该指标为160，则：

1-pnorm(160,mean=132,sd=13)

## [1] 0.01562612

另一个典型应用与统计检验有关。考虑简单的符号检验：

20个病人每人进行2中治疗（以随机顺序治疗），问治疗A还是治疗B更好。结果表明16人认为A好。问题是这是否能作为A确实更好的充分证据，还是说这个结果也可能只是偶然发生的，即使两种治疗效果同样好。如果两种治疗没有差别，可以认为喜欢A的人数服从n=20，p=0.5的二项分布。那么所观测到的结果有多少种可能呢，如同在正态分布下，需要一个尾部概率。

pbinom(16,size=20,prob=.5)

## [1] 0.9987116

然后用1减去它得到上尾概率，但这是不对的。我们需要的是观测到的或更极端的概率，pbinom给出了16或更少数量的概率。此处用“15或更少”来代替：

1-pbinom(15,size=20,prob=.5)

## [1] 0.005908966

如果因为没有关于哪种治疗方法更好的假设，而希望进行双侧检验，那么必须加上得到在另一侧同样极端结果的概率。这意味着4个或更少的人喜欢A的概率。下面给出总的概率：

1-pbinom(15,20,.5)+pbinom(4,20,.5)

## [1] 0.01181793

3.5.3 分位数

分位数函数是累计分布函数的反函数。具有这样的性质：得到小于等于它的概率为p。根据定义，中位数即50%分位数。

理论分位数通常用于置信区间的计算，以及与设计试验有关的势函数的计算。下面给出一个置信区间计算的简单例子。

如果有来自具有共同均值μ和标准差σ的正态分布的n个观测，均值\[ \overline{X}\]服从均值为\[\mu\]、标准差为\[\sigma/\sqrt{n}\]的正态分布，\[\mu\]的95%置信区间为： \[ \overline{x}+\sigma/\sqrt{n}\times N_{0.025}\leq\mu\leq\overline{x}+\sigma/\sqrt{n}\times N_{0.025} \] 其中\[N_{0.025}\]是正态分布的2.5%分位数。如果\[\sigma=12\]，观测了\[n=5\]个人，得到均值\[\overline{x}=83\]，那么可以计算相关分位数如下：（sem表示standard error of the mean）

xbar <- 83
sigma <- 12
n <- 5
sem <- sigma/sqrt(n)
sem

## [1] 5.366563

xbar + sem + qnorm(0.025)

## [1] 86.4066

xbar + sem + qnorm(0.975)

## [1] 90.32653

因此得到了一个\[\mu\]的置信度为95%的置信区间，从72.48到93.52。

由于正态分布是对称的，所以有\[N_{0.025}=-N_{0.975}\]，通常把置信区间公式写成\[\overline{x}\pm\sigma/\sqrt{n}\times N_{0.975}\]。这个分位数通常被记为\[\Phi^{-1}(0.975)\]。此处\[\Phi\]是标准正态分布（pnorm）函数的标准符号。

3.5.4 随机数字

使用随机数产生函数非常简单。第一个参数指定用于计算的随机数的数量，后续参数类似于其他与相同分布有关的函数中相应位置的参数，例如：

rnorm(10)

##  [1]  0.04684732 -0.02948123 -0.75005173 -0.56389955  0.19080283
##  [6] -0.61748503  2.71935500  0.20708539  0.40252155  0.17880460

rnorm(10)

##  [1] -0.08673014 -1.43452132  0.79059235 -0.44031861  0.99937695
##  [6]  0.43162762  0.44075596 -1.40122629  2.15570131  0.36923848

rnorm(10,mean=7,sd=5)

##  [1]  1.9246116  8.4571563  5.2999963  1.2818234  9.7980067 -1.9064289
##  [7] 13.5556810  3.3486614  6.5230462  0.3127788

rbinom(10,size=20,prob=.5)

##  [1]  7 10  6  7  9 11  7 12  9 12

R 统计

R语言统计入门-第三章

第三章概率与分布

3.1 随机抽样

3.2 概率计算与排列组合

3.3 离散分布

3.4 连续分布

3.5 R中的内置分布

3.5.1 密度

3.5.2 累计分布函数

3.5.3 分位数

3.5.4 随机数字

Dr.二哈

在读苦逼科研狗

相关

R语言统计入门-第三章

第三章 概率与分布

3.1 随机抽样

3.2 概率计算与排列组合

3.3 离散分布

3.4 连续分布

3.5 R中的内置分布

3.5.1 密度

3.5.2 累计分布函数

3.5.3 分位数

3.5.4 随机数字

Dr.二哈

在读苦逼科研狗

相关

第三章概率与分布