AI管理统计学返回主页

第二章:基于AI的数据获取与预处理

2.0 引例:自动驾驶多模态数据融合——百度Apollo的异构数据处理体系

对应领域: 智能网联新能源汽车

场景案例: 激光雷达点云数据(非结构化)与高精地图(结构化)的清洗对齐

数据合规: 符合《汽车数据安全管理若干规》要求

现状: 日均处理PB级数据,但有效标注数据不足20%

百度Apollo数据处理架构

数据采集

激光雷达/摄像头/毫米波雷达

数据清洗

去噪/对齐/异常检测

数据转换

点云到BEV映射

数据标注

AI预标注+人工核验

模型训练

ADFM大模型训练

1.2PB
日均处理数据量
18.7%
有效标注数据占比
92%
AI预标注准确率

多模态数据融合技术

百度Apollo采用"特征级融合"与"决策级融合"相结合的方式处理多源异构数据[8](@ref):

  • 特征级融合:在传感器数据的特征空间中进行直接融合,提高特征表达能力
  • 决策级融合:基于多个传感器的原始数据或中间结果进行决策级融合,增强系统鲁棒性
  • 时空对齐:控制时间同步误差1ms内,空间配准重投影偏差小于5像素[7](@ref)

2.1 数据类型

2.1.1 结构化数据

定义: 具有预定义模型和固定格式的数据,适合关系型数据库存储

特点:

  • 高度组织化,易于搜索和分析
  • 通常存储在表格形式中
  • 示例:高精地图数据、车辆传感器数值、用户信息表
数据库表格
Excel文件
SQL数据库

2.1.2 非结构化数据

定义: 无预定义模型或组织结构的数据,占企业数据的80%以上

特点:

  • 形式多样,包含文本、图像、音频、视频等
  • 需要特殊处理才能提取价值
  • 示例:激光雷达点云、摄像头图像、社交媒体文本
点云数据
视频流
自然语言文本

结构化 vs 非结构化数据

2.2 数据获取

人工主导型
技术依赖型
第三方数据

人工数据采集

需要人工参与的数据收集方式:

  • 问卷调查与用户访谈
  • 人工数据标注(如图像标记)
  • 实地观察与记录
  • 人工数据录入系统

挑战: 成本高、效率低、主观性强

技术驱动型采集

基于自动化技术的数据获取方式:

  • 传感器网络(IoT设备)
  • 网络爬虫与API接口
  • 日志文件自动收集
  • 移动应用数据采集

优势: 实时性强、规模大、成本低

第三方数据源

外部获取的数据资源:

  • 公开数据集(Kaggle、UCI)
  • 数据市场交易
  • 政府开放数据平台
  • 合作伙伴数据共享

注意事项: 数据质量、合规性、授权协议

2.2.5 数据合规

数据获取必须遵守法律法规要求:

  • 《汽车数据安全管理若干规》要求车内数据处理本地化
  • GDPR对个人数据处理的严格限制
  • 数据匿名化处理技术
  • 用户授权与隐私保护机制

百度Apollo采用"数据脱敏"技术,在数据处理前移除敏感个人信息[11](@ref)

2.3 数据合成

2.3.1 合成数据的含义

定义: 通过算法人工生成的数据而非真实世界采集的数据

应用场景:

  • 解决真实数据稀缺问题(如罕见事故场景)
  • 保护隐私(生成不包含真实信息的数据)
  • 平衡数据集(解决类别不平衡问题)
  • 模型压力测试(创建极端场景数据)

2.3.2 合成数据的原理

主要技术方法:

  • 生成对抗网络(GANs): 生成器与判别器对抗训练
  • 变分自编码器(VAEs): 学习数据潜在分布
  • 基于物理的仿真: 游戏引擎创建逼真场景
  • 数据增强技术: 旋转、裁剪、噪声添加等

百度ADFM大模型使用合成数据覆盖长尾场景,提升模型泛化能力[10](@ref)

2.3.3 合成数据与大模型

大模型与合成数据的协同效应:

  • 大模型生成高质量合成数据
  • 合成数据训练更强大的模型
  • 闭环迭代优化系统性能

2.4 数据清洗

2.4.1 结构化数据清洗

针对表格型数据的清洗技术:

  • 缺失值处理: 删除、插值、模型预测填充
  • 异常值检测: Z-score、IQR、聚类分析
  • 重复数据处理: 基于主键或特征相似度去重
  • 格式标准化: 日期、货币、单位统一

2.4.2 非结构化数据清洗

复杂数据类型的清洗方法:

  • 点云数据: 离群点去除、降采样、地面分割
  • 图像数据: 去噪、增强、畸变校正
  • 文本数据: 去除停用词、词干提取、纠错
  • 视频数据: 关键帧提取、运动模糊处理

自动驾驶系统采用多级清洗流水线,自动化率达90%[7](@ref)

数据清洗模拟器

输入数据后点击"执行清洗流程"查看结果

2.5 数据转换

2.5.1 结构化数据转换

表格数据转换技术:

  • 特征缩放: 标准化、归一化、最大绝对值缩放
  • 特征编码: 独热编码、标签编码、目标编码
  • 特征构造: 创建交互特征、多项式特征
  • 降维技术: PCA、LDA、t-SNE

2.5.2 非结构化数据转换

复杂数据转换方法:

  • 点云数据: 体素化、BEV投影、特征提取
  • 图像数据: 特征提取(CNN)、目标检测、分割
  • 文本数据: 词嵌入、序列编码、注意力机制
  • 多模态融合: 早期融合、晚期融合、混合融合

百度Apollo使用BEV Transformer实现多传感器数据融合[10](@ref)

Python示例:点云数据处理
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# 点云数据加载
point_cloud = np.loadtxt('lidar_data.txt')

# 数据标准化
scaler = StandardScaler()
scaled_data = scaler.fit_transform(point_cloud)

# 降维处理
pca = PCA(n_components=3)
transformed_data = pca.fit_transform(scaled_data)

# BEV投影
bev_image = np.zeros((200, 200))
for point in transformed_data:
    x, y = int((point[0] + 25) * 4), int((point[1] + 25) * 4)
    if 0 <= x < 200 and 0 <= y < 200:
        bev_image[x, y] = 255

2.6 本章小结

  • 多模态数据融合是自动驾驶等AI系统的核心挑战,需要解决时空对齐问题
  • 数据合成技术成为解决长尾场景的关键,大模型与合成数据形成正向循环
  • 数据合规已成为数据获取的前提条件,特别是涉及个人隐私的场景
  • 非结构化数据处理需要专门的技术栈,点云/图像/文本各有其处理方法
  • 百度Apollo的实践表明,自动化数据处理流水线可提升效率90%以上[7](@ref)

数据处理关键指标

数据处理实践区

多模态数据处理模拟

数据处理结果
选择数据类型后点击"执行数据处理"