非参数bootstrap方法,小数据集统计的大能手 - 纳金网
联系我们

给我们留言

联系我们

地址:福建省晋江市青阳街道洪山路国际工业设计园纳金网

邮箱:info@narkii.com

电话:0595-82682267

(周一到周五, 周六周日休息)

当前位置: 主页 > 资讯 > 前沿 >

非参数bootstrap方法,小数据集统计的大能手

来源:百度 浏览数:
责任编辑:传说的落叶
时间:2018-12-18 10:15

[导读]这两篇文章都有引荐“bootstrap”方法,详情请阅读全文。

这两篇文章都有引荐“bootstrap”方法:

中介和调节效应自助法检验, 非正态截面数据

10种常用的的数据分析思路, 计量学者必备

在统计学中,自助法(Bootstrap Method,Bootstrapping或自助抽样法)是一种从给定训练集中有放回的均匀抽样,也就是说,每当选中一个样本,它等可能地被再次选中并被再次添加到训练集中。自助法由Bradley Efron于1979年在《Annals of Statistics》上发表。当样本来自总体,能以正态分布来描述,其抽样分布(Sampling Distribution)为正态分布(The Normal Distribution);但当样本来自的总体无法以正态分布来描述,则以渐进分析法、自助法等来分析。采用随机可置换抽样(random sampling with replacement)。对于小数据集,自助法效果很好。

 

最常用的一种Bootstrap自助法,假设给定的数据集包含d个样本。该数据集有放回地抽样m次,产生m个样本的训练集。这样原数据样本中的某些样本很可能在该样本集中出现多次。没有进入该训练集的样本最终形成检验集(测试集)。 显然每个样本被选中的概率是1/m,因此未被选中的概率就是(1-1/m),这样一个样本在训练集中没出现的概率就是m次都未被选中的概率,即(1-1/m)^m。当m趋于无穷大时,这一概率就将趋近于e^-1=0.368,所以留在训练集中的样本大概就占原来数据集的63.2%。

 

例如:人工样本为1,2,3;只有三个样本,则可以从随机变量X,分布为P(X=k)=1/3, k=1,2,3; 这样的经验分布中用计算机根据上述分布自动产生样本,如产生5个样本:1 2 3 2 1;也可以是:3 3 2 1 1。

 

自助法在数据集较小、难以有效划分训练集和测试集时很有用;此外,自助法能从初始数据集中产生多个不同的训练集,这对集成学习等方法有很大的好处。然而,自助法产生的数据集改变了初始数据集的分布,这会引入估计偏差。因此,在初始数据量足够时,留出法和交叉验证法更常用一些。

 

下面,咱们通过一列slides来看看bootstrap方法。如果不懂这些具体运算,对这种方法有大致的印象也对今后的研究工作有很大的帮助。

可以到计量经济圈社群交流访问。


免责声明:本文仅代表作者个人观点,与纳金网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。



  • TAGS:数据集
  • 网友评论

    您需要登录后才可以发帖 登录 | 立即注册

    关闭

    全部评论:0条

    联系方式

    服务热线:15059788121/13489872927/15959158412

    换链QQ:435820619

    电子邮箱:info@narkii.com

    联系地址:福建省晋江国际工业设计园5号楼

    福建省纳金网信息技术有限公司 闽ICP备08008928号-1

    Copyright www.narkii.com 2008-2019 All Rights Reserved

    开展“净网2019"专项行动,坚决保障网络空间清朗

    IOS版

    安卓版

    官网认证