绪论

空间分析及目的--空间分析的四个范畴

  1. 空间数据操作: GIS中的分析工具-ex.叠加分析,重分类
  2. 空间数据分析: 描述性和探索性分析-- ex.密度分析,标准差椭圆
  3. 空间统计分析: 统计方法分析-- ex.空间自相关,地统计
  4. 空间建模: 综合的复杂模型

空间分析能够解读出比数据本身更多的信息和知识的分析技术和方法.

地理学家用空间分析技术或方法研究地理对象或现象的分布模式,动态演变以及空间相互作用规律,发展和检验地理模型.

地理学研究内容 分布 形态 类型 关系 结构 联系 过程 机制 地理学研究目的 人自然社会和谐发展.

数据预处理与全局性分析

数据预处理

缺失数据处理

数据缺失类型

  • 完全随机缺失: 完全随机发生,与自身或其他变量无关
  • 随机缺失: 数据的缺失不是完全随机的,即该类数据的缺失依赖于其他完全变量.
  • 非随机缺失: 数据的缺失不是随机的,而是与未观测到的变量或缺失的数据本身有关.

数据缺失处理方法

  • 个案剔除法: 删除整条记录
  • 均值替换法: 用均值替代缺失数据
  • 热卡填充法: 用相似对象的值代替缺失值
  • 模型计算值替代: 回归方法,EM法,贝叶斯估计等

缺失数据的处理仅仅是数学上的处理,不宜多用,并且要注明数据来源.

异常数据处理

如何发现异常值

  • 可视化方法
  • 描述性统计特征

数据标准化

标准化处理类型

  • 总和标准化
  • 标准差标准化
  • 极大值标准化
  • 极差标准化

标准化作用

增强可比性,防止过拟合.标准化后数据相关性没有改变

  1. 消除数量级影响
  2. 消除量纲影响

数据转换

数据转换类型

  • 数据形式转换(文本-图形)
  • 数据格式转换(栅格-矢量)
  • 值(重分类)
  • 坐标系(地理-投影)

数据转换方式

  • 计算新变量: 计算新变量.
  • 变量转换: 重编码,离散化,变量平移.
  • 专用过程: 时间序列模型相关过程,自动数据准备相关过程,设定随机种子相关过程.

地理数据全局性分析

描述性统计

  1. 集中趋势的指标: 平均值,中位数,众数,截尾均数,几何均数
  2. 离散趋势的指标: 极差,离差,离差平方和,方差,标准差,变异系数
  3. 共同离散程度的指标

均衡多样性测度

  1. 劳伦兹曲线

基尼系数: \(G = \frac{A}{A + B}\)

相关性分析

相关性分析的任务

两度量变量的相关性分析

Pearson 相关系数使用条件

  • 两组变量.
  • 两组变量总体符合正态分布.
  • 一般的,用于计算的变量不少于30对.

秩相关系数

Spearman相关系数

将两要素的样本值按数据的大小顺序排列为此,以各要素样本值的位次代替. \[ r_{xy}' = 1 - \frac{6\sum_{i=1}^n d_i^2}{n(n^2-1)} \] 其中\(n\)为样本数量,\(d\)为两变量的位次差. #### Kendall相关系数 \[ \tau = \frac{\text{和谐对数量}- \text{不和谐对数量}}{0.5 \times n(n-1)} \]