统计学基础知识有哪些?_趣味生活

1. 数学分析

本科统计学不学高等代数(至少中财是)学的是数学分析，数学分析注重理论推导过程，对于很多数学原理的理解很有帮助。虽然统计和数学不一样，但是统计需要数学。微积分知识是后续学习概率论的基础，概率论是整个统计学专业学习的基石，对于微积分的要求比较高，一定要熟练掌握。

2.高等代数

高等代数比线性代数难，内容更多，线性代数较为简单，本人本科学的是高等代数，涉及到的原理推导和知识更多，线性代数只是涉及到代数最基础的知识，对于后续学习概率论与数理统计课程的帮助不如高等代数明显。

3.概率论与数理统计

统计学必须学习的课程，各个高校选取的教材不一样，本人本科学的是卯时松版的课本，同时参考过浙江大学版的教材，卯时松版教材较难，对于深入理解概率论与数理统计帮助很大，很多原理性的东西可以掌握，课后习题难度较大。

统计学基本概念

假设检验:根据一定假设条件由样本推断总体的方法。（小概率反证的思想，即在原假设成立的前提下，小概率事件在一次实验中不太可能发生，如果发生了，则认为原假设并不成立。）

假阳性：又称第一类错误，原假设实际上是正确的，但我们做出的决定是拒绝原假设，拒绝实际上成立的，为 “弃真” 错误。

可能产生的原因：1）样本极端数值；2）采用决策标准较宽松。

假阴性：第二类错误，原假设实际上是不正确的，但我们却做出了接受原假设的决定。

可能产生的原因：1）实验设计不灵敏；2）样本数据变异过大；3）处理效应本身较小。

犯Ⅰ类错误得危害较大，由于报告了本来不存在的现象，则因此现象而衍生出的后续研究、应用的危害将是不可估量的。相对而言，Ⅱ类错误的危害则相对较小，因为研究者如果对自己的假设很有信心，可能会重新设计实验，再次来过，直到得到自己满意的结果（但是如果对本就错误的观点坚持的话，可能会演变成Ⅰ类错误）。

置信水平：表示样本统计值的精确度,它是指样本统计值落在参数值某一正负区间内的概率。

置信水平：是指总体参数值落在样本统计值某一区内的概率；

置信区间：是指在某一置信水平下，样本统计值与总体参数值间误差范围。置信区间越大，置信水平越高。

区别估算：

显著性差异：

p-value：假定值。

平均值：反映数据集中趋势。

中位数：

p1/p25/p50/p75/p99：

相关性：反映两个变量之间变化趋势的方向以及程度。

三个相关性系数（pearson, spearman, kendall）

因果性：原因和结果是揭示世界中普遍联系的事物具有先后相继、彼此制约的一对范畴。

幸存者偏差：只能看到经过筛选而产生的结果，而没有意识到筛选的过程，因此忽略了被筛选掉的关键信息。参考

大数定律：在随机事件的大量重复出现中，往往呈现几乎必然的规律，这个规律就是大数定律。

80/20：重要的只占20%，其余80%是次要的。

本文主要介绍：统计学基本概念、数据的收集、数据的描述、回归和分类、多元分析，其中回归和分类、多元分析是学习重点。统计学中的其它概念如：概率及分布、参数估计、假设检验属于经典统计的内容，在此文略去。

统计学：收集、处理、分析、解释数据并从中得出结论的科学。

数据分析的方法可分为描述统计和推断统计。

注意：分类变量如“行业”，其变量值可以为“零售业”、“旅游业”、“汽车制造业”；顺序变量如“产品等级”，其变量值可以位“一等品”、“二等品”、“次品”。分类变量与顺序变量均可称为定性变量、属性变量。

2.数据的收集

注意：在抽查中可根据具体项目采取概率抽样和非概率抽样相结合的方式，收集数据也可以采用自填、电访、面访相结合的方式以节省成本。在间接来源中，注意对二手数据评估，可以考虑：数据是谁收集的？为什么目的收集的？数据怎么收集的？什么时候收集的？避免对二手数据的错用、误用、滥用。

3.数据的描述

3.1数据的概括性度量

注意：在excel 数据---“数据分析---描述统计中能得到所有指标值。

3.2数据的图表展示

说明：不同的箱线图对应的分布如下

注意事项：图表应简洁、合理的表达统计目的，不应在图形的修饰上花费太多时间。在绘制图形时，应避免一切不必要的装饰，注重图形所要表达的信息，图形产生的视觉效果应与数据所体现的事物特征一致，不得歪曲数据。

统计表是用于展示数据的另一个基本工具，一般由表头、行标题、列标题和数字资料组成，必要时在统计表的下方添加数据来源、变量注释和说明等。统计表的横竖比例要适当，避免出现过高或过宽的情况；表头标题应满足3W原则（when、where、what），统计表中应注明单位，表的上下两条线一般用粗线，中间的其它线用细线；通常情况下，统计表左右两边不封口，列标题之间在必要时可用竖线分开，而行标题通常不必用横线分开；表中数据一般是右对齐，有小数点时小数点对齐，小数点位数统一，对于没有数字的单元，一般用“—”表示，表中不应出现空白单元格。

4.回归与分类

4.1回归：数值型变量(因)——数值型变量(自)

线性回归属于经典统计学，模型能够写成公式，而其它几种方式属于现代方法，模型体现在算法之中，这些方法广泛应用于机器学习或数据挖掘之中。算法模型适用范围比经典的统计模型根据广泛。在处理巨大的数据集上，在无法假定任何分布背景的情况下，在面对众多竞争模型，算法模型较经典模型有着不可比拟的优越性。

4.2分类：分类变量(因)——数值型变量(自)

说明：Logistic回归、线性判别分析(Fisher判别法)均属于经典统计的内容。支持向量机是基于数学模型但充分结合了计算机的算法。

4.3分类：分类变量(因)——分类变量(自)

参考：

统计学基础知识

链接：https://www.jianshu.com/p/3f9c2e587d43

来源：

统计学需要具备数学基础，概率论与数理统计。统计学是应用数学的一个分支，主要通过利用概率论建立数学模型，收集所观察系统的数据，进行量化的分析、总结，并进而进行推断和预测，为相关决策提供依据和参考。

它被广泛的应用在各门学科之上，从物理和社会科学到人文科学，甚至被用来工商业及政府的情报决策之上。统计学主要又分为描述统计学和推断统计学。