11、抽样与估计

11.1中心极限定理&标准误差 CENTRAL LIMIT THEOREM AND STANDARD ERROR

  • 简单随机抽样 Simple random sampling
    • 整体中抽出任何一个到样本中的概率都相同
    • 间隔n个取1个的系统抽样systematic sampling,可以形成近似随机样本
  • 抽样分布 sampling distribution
    • 抽样统计本身也是一个随机变量,也有概率分布
    • 区分简单随机抽样 & 分层随机抽样
  • 区分时序数据&截面数据
    • Time-series data,例如一只股票过去3年的收盘价
    • Cross-sectional data 例如今天所有大盘股的收盘价
    • Longitudinal data 纵向数据
    • Panel data 横向数据
  • 样本误差 sampling error
  • 中心极限定理
    • 对于均值为μ,方差为σ^2的总体, 简单随机采样,采样大小为n,当n足够大时(通常认为n>=30时),样本均值x’的抽样分布接近均值μ和方差σ^2/n的正态分布
      • 当n足够大(n>=30)时,采样样本均值的分布接近于正态分布
      • 整体均值,μ = 所有的采样样本均值的平均数
      • 采样样本空间的方差为σ^2/n,即总体方差除以采样大小
    • 样本均值的标准误差
      • σ/(n)^0.5
    • 估计值的满意度属性
      • 无偏性 unbiased
      • 有效性 efficient
      • 一致性 consistent

11.2 置信区间& T分布

  • 点估计 & 置信区间估计 point estimate and confidence interval estimate
    • 样本均值x’就是对整体均值 μ的点估计
    • 置信区间估计,则是对于整体的参数落在某一区域范围内的估计
  • t分布及自由度
    • 钟形概率分布,围绕均值对称分布,适用于
      • 对总体满足或接近正态分布,但方差未知的,采样数又较少的(n<30)样本构建置信区间。
      • 总体方差位置,但采样数足够大,根据中心极限定理,接近正态分布的情况
    • 有如下性质:
      • 对称
      • 单参数,defrees of freedom(df),对于样本均值而言,df=n-1
      • 相比正态分布,拥有“ 低峰肥尾” flatter,thicker tails
      • 当df越来越大,t分布就越接近正态分布
      • 结合Table of Critical t-Values理解 df对置信区间的影响
    • 置信区间&显著性水平&置信度
      • 置信区间估算真实值在一个区间内的概率为1-α,这里的α被称作置信区间的显著性水平level of significance,1-α又被称作置信度degree of confidence
      • 置信区间通常描述为:point estimate ± (reliability factor × standard error)
    • 正态分布,方差已知的置信区间计算方法
      • x’ +/- z(α/2)σ/n^(0.5)
        • 其中x‘为样本均值
        • z(α/2),90%的置信度时,=1.645;95%置信度时,=1.960,99%置信度时,=2.575
        • σ/n^(0.5),样本均值的标准差
    • 正态分布,方差未知的置信区间计算方法
      • x’ +/- t(α/2)σ/n^(0.5)
        • 其中x‘为对总体均值的点估计,样本均值
        • t(α/2),df=n-1,查t表
        • s/n^(0.5),样本均值的标准差,s为样本标准差
    • 任意非正态分布,采样数足够大(n>=30)的置信区间计算方法
      • 如果全局方差已知,用z分布
      • 如果全局方差未知,用t分布,虽然用z分布也可接受
  • 关于选择适当的采样数
    • 虽然采样数n越大越好,但要注意:
      • 大的样本中可能引入一些其他的数据,比如训练儿童语音识别,引入成人的语音样本数据
      • 采样数的增加,对于价值的提升,与引入的成本对比,是否适合
  • 关于数据挖掘偏差,样本选择偏差,幸存者偏差,前瞻性偏差,时间周期偏差
    • 数据挖掘偏差,机器学习的时候遇到过,过拟合的情况overestimated,好的办法是验证数据集和训练数据集分开
    • 样本选择偏差,对选择的数据符合,对无法收集的不在样本空间内的数据,可能不符合
    • 幸存者偏差,样本选择偏差的一种典型案例,评估基金表现的时候,很多数据库仅有存货的基金数据,而没有那些退市的基金
    • 前瞻性偏差,用已有的数据,估计未来的数据,并将之作为验证依据
    • 时间周期偏差,时间周期选择太短或太长