所谓大数定律就是概率论中一系列定律的总称,又称为“大数法则”和“平均法则”,就是概率论主要定律之一。
大数定律指的是对于一个随机事件样本而言,比如掷硬币的结果,或是21点赌局中手上的牌,随若样本规模的增多,期望均值也会随之增加。大数定律就是随着随机试验次数的增加(随机事件组成的样本规模增多),结果的平均值更加接近某个常数。该常数则是样本分布的均值。掷10次硬币,最终可能是7次为正面,3次为反面,正反面是七三开。然而,掷上万次硬币。得出的结果一定会接近于正反五五开。
从统计学的意义上来看,大数定律要求的样本的基本条件就是独立同分布。换言之,假如投资者在实验过程中,样本分布的同质性越强,那么大数定律能实现的可能性就越大。
在统计学以及经济学中,极其重要的一条规律就是“大数定律”,即随机变量在大量重复实验中形成几乎必然的规律,样本越大,那么对样本期望值的偏离就越小。
对不确定事件加以判断或者决策的时候,所谓的小样本错误是经常见到的现象。
一是运用处理确定性关系时由个别到一般的归纳法来认识不确定性关系,把判断简单地建立在少最信息的基础之上,不顾条件限制急忙地“归纳”出条件概率(或者频率),从而夸大小样本对总体的代表性,把小样本中某事件的概率分布视为总体分布,认为它只有普遍适用性而应用于大样本,以偏概全。比如,若一个金融分析师接连推介的几个股票随后的表现都非常好,则交易者往往会对之非常信任,反过来也如此,这就是一种数据科学实验、检验以及统计等所得到的与用于科学研究、技术设计、查证以及决策等的数值“陷阱”。其原因在于采样太少,尽管分析和推理过程正确也不一定能获得正确的结论。
二是进行处理确定性关系时由一般到个别的推理方法来认识不确定性关系,将适用于大样本事件的概率,应用于小样本上,所以,在小样本事件的频率严重地偏离事件的概率的时候,通常高估将要发生的事件出现的概率。比如尽管大家都知道投掷硬币正反面出现的概率是50%,然而假如连续出现多次正面的时候,大家总是以为接下来就出现反面的机会很大,这也是大家心理大增的原因,所谓的注码法的理论依据也是由此而来的。小样本错误就是心理学小数法则作用的结果。以错误的心理学小数法则来代替了正确的概率大数法则,这是一个具有专门知识的人均有可能犯的错误,有时候甚至不顾书本上早有定论的、准确无误的先验概率。尽管人们在认识一个未知的随机现象时,“小样本错误”是无法避免的,然而在先验概率已知的情况下,就不该再犯这样的错误。
实际上,概率是一个固定常数,与样本有关的频率不可能影响概率,频率了有的时候严重偏离概率恰巧反映了它们之间的不确定关系。与此同时,概率不但可以运用试验来近似确定,大多数时候还能够准确计算出来。一个理性就是指人在正常思维状态下的时候,能够有自信和刃气在遇事不慌并全面了解和总结并尽快地分析之后恰当地使用多种方案(这些方案可以是预备的或者是临时的)中其中的一种方案去进行操作,从而达到事件需要的效果。理性就是根据正常的思维结果的行为;相反则是非理性。理性的意义就是对自身存在以及超出自身却与生俱来的社会使命负责。推断行为不仅会运用大样本的所有信息,也会运用此类先验信息。
大数定律就是用明确的数学形式来表达随机试验的规律,并且论证了其成立的条件。从理论上阐述这种大量的、在一定条件下的以及重复的随机现象呈现的“频率稳定于概率”的规律性。是因为大数定律的作用,大量随机因素的整体作用一定造成某种不依赖于个别随机事件的结果。假如说概率论是有关随机现象预测理论。则大数定律就告诉了交易者预测的方法,应该如何进行预测。贝努利大数定律从理论上证明了经过试验来确定概率的方法:做n次独立的重复试验,以μn来表示着n试验中A发生的次数,当n非常大的时候,则交易者能够以很大的概率确信:p≈μn/n。在事件的概率未知或是需要验证理论计算出的概率是否准确时,交易者常用这种方法。
反之,已知事件的概率,当n非常大的时候,就能够用事件的概率来预测n重贝努利试验中事件发生的次数:μn≈pxn,其中n越大,预测的可信度就越高。赌场中不论任何赌博的每一次都只有赢和不赢 两种结果(“和”或者“平”可以当作是50%的赢),赌博则是贝努利试验。准确地计算出赌戏的赢率,就能够用以预测赌博的结果,它的根据就是大数定律。赌的时间越长,预测就越有效。
现在就能够来解释前面提及的现象。扔了两次硬币,还有可能出现两次均是正面或两次都是反面的情况。将这时的频率视为概率显然是错误的。换言之,将扔两次硬币的频率当作是概率,发生严重偏差的概率为50%,而将扔10000次硬币的频率视为概率在绝大多数情况下结果都是相当可信的。结果是,试验上万次比试验两次获得的结果更可信。
所以,运用统计方法来确定事件的概率的时候,频率随若试验次数的增加接近概率也是以概率的方式。统计的次数越多。频率接近概率的可能性就越大,它的结论就越可信。能够这样认为,统计次数就是反映了结论的可信程度,而这时的频率结果与概率有多接近则有一定的随机性。也就是说,经过试验来确定概率是有风险的,不管在哪种情况下,均有频率偏离概率的情况存在,增加试验的次数,能够降低这种风险,然而它却不能消除风险本身,只有在试验次数是无穷大的情况下,才没有这种风险的存在。但是,当试验的次数是足够多的时候,虽然将频率当作概率还是有出错的可能,然而这种可能性已经极小了。从而能够完全放心而无须担心出错。