Lecturer: 王永桂

绪论

数据 对客观事件进行记录并可以鉴别的符号,是对客观事物的性质,状态以及相互关系等进行记载的物理符号或这些物理符号的组合. 数据经过数据加工后成为信息.数据是信息的表现形式和载体,而信息是数据的内涵.数据加载与数据之上,对数据作出具有含义的解释.

大数据定义众说纷纭: 1. 对所有数据进行整理分析,而不是采用随机分析法(抽样调查) 2. 大小超出传统数据库软件的抓取,存储,管理和分析能力的数据群

大数据特点

  1. Volume. 大于TB
  2. Variety. 数据结构多样(非结构-半结构-结构).
  3. Velocity. 在秒级时间范围给出分析结果(产生速度快,处理速度快)
  4. Value. 总量价值大,价值密度低.
  5. Veracity. 减少抽样调查的有偏性. 内容更全面真实.

大数据对探究范式的改变

经验范式 - 理论范式 - 计算机范式 - 数据密集范式

以数据为驱动的人工智能,云计算等技术的发展.不仅能进行模拟仿真,还能进行分析总结,并推求新的理论. 1. 成为一种新的决策方式 2. 醋精信息技术和各行业的深度融合 3. 推动新技术和新应用的不断涌现

时空大数据由时空数据组成的大数据: 大数据与地理时空数据的融合,即以地球为对象,基于统一时空基准,活动于时空中的数据.是现实地理世界空间结构与空间关系各要素的数量,质量特征及其随时间变化而变化的数据集的总和.

时空大数据类型

  1. 时空基准数据.
  2. GNSS和位置轨迹数据.
  3. 空间大地测量与物理测量数据.
  4. 海洋测绘数据.
  5. 与位置相关的空间媒体数据.

时空大数据关键技术

数据采集与存储 数据查询与索引 数据分析与挖掘
利用ETL工具将发布的,异构数据源中的数据进行转换集成,成为数据底座的基础 依托于空间索引方法实现对时空大数据的高效率查询 基于可视化,统计学习,机器学习,过程抹模拟等方法实现对海量数据的分析与挖掘

时空大数据获取方法

采集流程

  1. 数据来源
  2. 数据采集
  3. 数据清洗
  4. 数据存储

采集方法

  1. 对地观测数据. 空天地一体化采集
  2. 网络采集工具. 日志采集系统,网络数据采集系统,数据库采集系统

时空大数据的清理

  1. 预处理与规则导入
  2. 缺失数据处理
  3. 异常数据监测: 平滑 + 聚类
  4. 历史重复数据监测(统计区间)
  5. 逻辑错误监测

分布式系统 - 分布式文件系统 分布式键值系统