概率与数理统计篇

随机性与概率论

古典概率

基本随机事件P(A)=A所包含的事件的数量/总数量

伯努利实验

从最简单,可重复的实验入手,因为可重复,才有规律,因为简单,规律才好找

两点分布也被称为伯努利分布

均值与方差

均值(期望):同样条件下下多次重复某随机实验得到结果的平均值

方差:偏离平均值的程度

分布模型

柏松分布

准备资源时,需要冗余量

柏松分布的概率函数为:

img

泊松分布的参数λ是单位时间(或单位面积)内随机事件的平均发生次数。 泊松分布适合于描述单位时间内随机事件发生的次数,揭示了诸多小概率事件发生时的统计规律

高斯(正态)分布

若随机变量x 服从一个,位置参数为μ,尺度参数为δ的概率分布,且其概率密度函数为

img

则这个随机变量就称为正态随机变量

可以通过标准差(多宽)与置信度(多高)来分析概率

条件概率

P(A|B)=P(A,B)/P(B)

概率,联合概率与条件概率的差异

概率与条件概率的误区

  • 有意无意漏掉部分选项
  • 穷举后以为涵盖了所有情况
  • 不自觉选择对自己有利的情况判断

贝叶斯公式

P(X|Y)=P(Y|X)P(X)/P(Y)

在机械翻译内作用较大

统计学与方法

定义

收集,分析,解释,陈述数据的科学

目的

从大量数据中寻找规律性,不同因素的相关性及可能存在的因果关系

陷阱

牵强寻找不是规律的规律(其实只是统计量不足的巧合)

忽略了统计主观行为对统计结果的影响(霍桑效应:被观察者知道自己成为观察对象而改变行为倾向的反应)

方法

设立研究目标

设计实验,选取数据

根据实验方案统计,分析

使用研究结果

古德-图灵折扣估计(防范黑天鹅)

解决零概率事件

利用齐普夫定律,从高频拿出一点概率总量分配到低频的随机事件上,再从低频的随机事件拿出一些概率总量分配给统计时没见到的随机事件

齐普夫定律

对各种语言中的词频与按照词频的排序,排序*词频=常数

80:20定律

80%的总量常常由20%的高频率元素构成

删除插值法

统计数据不够时,大量小概率事件的概率无法准确估计

所以在估算条件概率时,用一般的概率作为补充

更大

概率是一种世界观,要明白很多时候没有简单的黑与白,只有灰度

统计是一种方法论,为了验证前提的正确性,或是在看似杂乱无章的数据中找到规律


概率与数理统计篇
http://mavericreate.top/Blogs/2025/08/28/概率与数理统计篇/
作者
唐浩天
发布于
2025年8月28日
许可协议