3.0 引例:低空经济示范区无人机交通流建模——深圳大鹏新区空域管理
对应领域: 低空经济
场景分析:
- 飞行高度呈现双峰分布:物流无人机集中50-100m,载人飞行器200-300m
- 速度分布右偏(偏态系数0.87):因紧急医疗配送提速导致
可视化突破:
- 基于Kepler.gl构建三维空域热力图,识别出12个冲突热点区域
- AI实时异常检测系统响应时间<800ms,误报率仅0.3%
政策背景: 民航局《低空飞行服务保障体系建规划》试点项目、享受新型基础设施REITs税收优惠
无人机空域热力图模拟
无人机空域热力图
三维热力图:不同高度无人机密度分布
物流无人机主要分布在50-100m(蓝色),载人飞行器分布在200-300m(红色)
三维热力图技术实现
使用Kepler.gl构建三维空域热力图的Python实现[9,10](@ref):
from keplergl import KeplerGl
import json
# 加载无人机飞行数据
flight_data = pd.read_csv('drone_flights.csv')
# 创建Kepler.gl地图实例
map_3d = KeplerGl(height=600)
# 添加数据层
map_3d.add_data(data=flight_data, name='无人机飞行轨迹')
# 配置热力图层
config = {
'version': 'v1',
'config': {
'visState': {
'layers': [{
'type': 'hexagonId',
'config': {
'dataId': '无人机飞行轨迹',
'label': '热力热点',
'columns': {'lat': 'latitude', 'lng': 'longitude', 'altitude': 'height'},
'visConfig': {
'opacity': 0.8,
'colorRange': {'name': 'Global Warming'},
'radius': 200,
'coverage': 0.7,
'elevationScale': 5
}
}
}]
}
}
}
# 应用配置并保存为HTML
map_3d.config = config
map_3d.save_to_html(file_name='drone_airspace_heatmap.html')
3.1 集中趋势统计量
3.1.1 平均数
定义: 所有数据值的总和除以数据个数
平均数 = (数据值总和) / (数据个数)
x̄ = (Σxᵢ) / n
特点:
- 对极端值敏感
- 适用于定量数据
- 在对称分布中最具代表性
3.1.2 众数
定义: 数据集中出现频率最高的值
众数 = 出现次数最多的数据值
特点:
- 不受极端值影响
- 适用于所有测量尺度的数据
- 数据集可能有多个众数
3.1.3 中位数
定义: 将数据有序排列后位于中间位置的值
奇数数据集:中间位置值
偶数数据集:中间两值的平均
特点:
- 对极端值不敏感
- 适用于顺序数据和定量数据
- 在偏态分布中最具代表性
集中趋势模拟器
输入数据后点击"计算集中趋势"查看结果
3.2 离散趋势统计量
3.2.1 方差和标准差
方差: 数据点与均值之差的平方的平均值
方差(s²) = Σ(xᵢ - x̄)² / (n-1)
标准差(s) = √(方差)
标准差图示:数据围绕均值波动程度
3.2.2 异众比
定义: 非众数组的频数占总频数的比例
异众比 = 1 - (众数组频数 / 总频数)
应用:
- 衡量众数的代表性
- 值越大,众数代表性越弱
3.2.3 内距
定义: 上四分位数与下四分位数之差
IQR = Q₃ - Q₁
特点:
- 不受极端值影响
- 用于识别异常值(小于Q₁-1.5IQR或大于Q₃+1.5IQR)
3.2.4 极差与变异系数
极差(R) = 最大值 - 最小值
变异系数(CV) = (标准差 / 均值) × 100%
应用场景:
- 极差:快速了解数据范围,但易受异常值影响
- 变异系数:比较不同单位或不同均值数据集的离散程度
3.3 数据分布统计量
3.3.1 偏态
定义: 衡量数据分布不对称性的统计量
偏态系数 = [n / (n-1)(n-2)] × Σ[(xᵢ - x̄)/s]³
解释:
- 正偏:右边尾部延伸较长
- 负偏:左边尾部延伸较长
- 0:对称分布
3.3.2 峰度
定义: 衡量数据分布尖峭或扁平程度的统计量
峰度 = [n(n+1)/(n-1)(n-2)(n-3)] × Σ[(xᵢ - x̄)/s]⁴ - [3(n-1)²/(n-2)(n-3)]
解释:
- 尖峰:数据集中在均值附近
- 扁平:数据分散度大
- 正态分布峰度=0
3.3.3 数据标准化
Z-score标准化:
z = (x - 均值) / 标准差
Min-Max标准化:
x' = (x - 最小值) / (最大值 - 最小值)
应用: 使不同量纲的数据具有可比性
分布形态模拟器
3.4 数据可视化分析
统计量分析与图表可视化
统计图表可视化示例
箱线图(离散趋势)、直方图(集中趋势)、散点图(相关关系)
不同统计量适合的可视化方法:
- 集中趋势: 箱线图(中位数)、直方图(均值/众数)
- 离散程度: 箱线图(IQR)、误差棒图(标准差)
- 分布形态: 直方图(偏态)、小提琴图(峰度)
- 相关关系: 散点图、热力图(相关系数)
基于AI的数据可视化分析
AI增强可视化分析流程
数据输入 → AI模式识别 → 智能图表推荐 → 自动洞察生成
AI如何增强数据可视化:
- 智能图表推荐: AI根据数据特征自动推荐最佳图表类型
- 异常检测可视化: 实时识别并高亮显示数据异常点
- 自然语言生成: 自动生成图表解读和统计结论
- 预测可视化: 展示AI模型预测结果与置信区间
多维数据可视化技术
三维数据可视化示例
空间位置(X,Y) + 高度(Z) + 时间维度 + 数据密度
复杂数据的高级可视化方法:
- 平行坐标图: 展示多维数据的特征关系
- 雷达图: 比较多个实体的多维度表现
- 三维热力图: 展示空间数据密度分布
- 桑基图: 可视化数据流动和转化过程
3.5 本章小结
统计指标关系网络
集中趋势 ↔ 离散程度 ↔ 分布形态 ↔ AI可视化
- 集中趋势三度量:均值、中位数、众数在不同分布场景下各具优势,需结合使用
- 离散程度多维度:方差、标准差、IQR和变异系数从不同角度揭示数据波动性
- 分布形态双指标:偏态与峰度量化分布不对称性与尖峭度,是深入理解数据的关键
- AI可视化突破:三维热力图实现空域冲突可视化,实时异常检测响应<800ms
- 统计与AI融合:描述统计为可视化提供理论基础,AI增强可视化洞察深度