第一章 程序员的统计思维
一、项目主题概述
讨论的问题:如何将数据转化为知识?
本书介绍了概率论、统计学和计算三个相关联的学科。
研究的项目主题:第一个孩子出生晚么?
一般所谓的”经验之谈“会有以下问题:
1、观察的数据量太少
2、选择偏差:第一胎出生晚的父母更有兴趣参与讨论,从而对数据进行了选择。
3、确认偏差:相信的人支持,怀疑的人会举出反例。
4、不准确:传闻的记忆和表述都不会准确
更好的方法:
二、统计方法
统计手段
- 收集数据
- 描述性统计:计算能总结数据的统计量(均值等)
- 探索性数据分析:寻找模式、差异和其他特征,并检查不一致,确认其局限性。
- 估计:用样本数据推断全部人口的特征。
在本章出现的专业词汇:
- 经验之谈(anecdotal evidence)
- 直观效应(apparent effect)
- 总体(population)
- 原始数据(raw data)
- 统计显著(statistically significant)
- 汇总统计量(summary statistic)
- 选择偏差
- 确认偏差
- 横断面研究(cross-sectional study)
- 纵贯研究(longitudinal)
- 被调查者(respondent)
- 队列(cohort)
- 过采样(oversample)
- 代表性(representative):同等机会进入样本,那么这个样本就具有代表性