时空大数据分析与挖掘笔记
Lecturer: 王永桂
绪论
数据
对客观事件进行记录并可以鉴别的符号,是对客观事物的性质,状态以及相互关系等进行记载的物理符号或这些物理符号的组合. 数据经过数据加工后成为信息.数据是信息的表现形式和载体,而信息是数据的内涵.数据加载与数据之上,对数据作出具有含义的解释.
大数据
定义众说纷纭: 1. 对所有数据进行整理分析,而不是采用随机分析法(抽样调查) 2. 大小超出传统数据库软件的抓取,存储,管理和分析能力的数据群
大数据特点
- Volume. 大于TB
- Variety. 数据结构多样(非结构-半结构-结构).
- Velocity. 在秒级时间范围给出分析结果(产生速度快,处理速度快)
- Value. 总量价值大,价值密度低.
- Veracity. 减少抽样调查的有偏性. 内容更全面真实.
大数据对探究范式的改变
经验范式 - 理论范式 - 计算机范式 - 数据密集范式
以数据为驱动的人工智能,云计算等技术的发展.不仅能进行模拟仿真,还能进行分析总结,并推求新的理论. 1. 成为一种新的决策方式 2. 醋精信息技术和各行业的深度融合 3. 推动新技术和新应用的不断涌现
时空大数据
由时空数据组成的大数据: 大数据与地理时空数据的融合,即以地球为对象,基于统一时空基准,活动于时空中的数据.是现实地理世界空间结构与空间关系各要素的数量,质量特征及其随时间变化而变化的数据集的总和.
时空大数据类型
- 时空基准数据.
- GNSS和位置轨迹数据.
- 空间大地测量与物理测量数据.
- 海洋测绘数据.
- 与位置相关的空间媒体数据.
时空大数据关键技术
数据采集与存储 | 数据查询与索引 | 数据分析与挖掘 |
---|---|---|
利用ETL工具将发布的,异构数据源中的数据进行转换集成,成为数据底座的基础 | 依托于空间索引方法实现对时空大数据的高效率查询 | 基于可视化,统计学习,机器学习,过程抹模拟等方法实现对海量数据的分析与挖掘 |
时空大数据获取方法
采集流程
- 数据来源
- 数据采集
- 数据清洗
- 数据存储
采集方法
- 对地观测数据. 空天地一体化采集
- 网络采集工具. 日志采集系统,网络数据采集系统,数据库采集系统
时空大数据的清理
- 预处理与规则导入
- 缺失数据处理
- 异常数据监测: 平滑 + 聚类
- 历史重复数据监测(统计区间)
- 逻辑错误监测
分布式系统 - 分布式文件系统 分布式键值系统
All articles in this blog are licensed under CC BY-NC-SA 4.0 unless stating additionally.
Comment