数据赋能，AI能力飙升：AIN数据工作流定义无线AI的数据框架

2026/05/12 责任编辑：Hanson 访问：1046

当前，6G 正在经历一场根本性角色重构：它不再是单纯追求速率提升的传统通信管道，而是以内生AI为底座，深度融合通信、感知、计算、智能与安全的一体化系统。内生AI是这套系统的核心引擎，数据则是驱动引擎运转的燃料，其质量、结构与处理方式，直接决定着 AI 能力的释放上限。中国电信研究院无线智能技术研究中心在无线数据领域的探索发现，提升这项能力的关键，不一定是更大的模型或更多的算力——有时候，仅仅是换一种方式“喂”数据，预测精度就能提升40%。

这个发现指向一个被长期低估的问题：在无线网络智能化进程中，数据的“怎么做”，比“有多少”更重要。

被忽视的瓶颈：

数据与场景脱节，算法与应用脱节

无线网络正在从“万物互联”向“万物智联”演进，AI内生已成为6G研究的行业共识。但一个尴尬的现实是：大量无线AI算法至今停留在仿真阶段，难以在真实网络中复现预期效果。

问题出在哪里？研究团队将其归结为两个“脱节”：

数据与场景脱节

无线数据来自基站、终端、核心网等不同网元，格式、协议层级、时空粒度各不相同。同一批原始数据，用于波束预测和用于基站节能，所需的特征工程截然不同。高质量、可复用的训练数据长期供给不足。

算法与应用脱节

模型在理想数据集上训练完成后，部署到真实网络环境时，面临数据缺失、噪声干扰、分布漂移等挑战。模型结构没变，但数据供给的质量变了，性能自然打折扣。

这两个脱节的本质，是数据从“原料”到“燃料”的转化链条没有打通。基于此，中国电信研究院无线网络智能技术研究中心围绕无线数据的汇聚、处理、应用三个关键环节进行联合攻关，构建了从数据到AI应用的完整研究框架，并将系列成果集成为AIN数据平台。

破局之道：

打通“汇聚-处理-应用”的数据闭环

面向未来网络演进智慧内生的需求，中国电信研究院王越博士提出了AIN技术体系，其技术内核是“数据+算力+网络+AI”四位一体在无线侧的深度融合与内生协同[1][2]。围绕这一技术体系，在数据方向，团队聚焦数据工作流，构建了三个关键能力环节：

数据汇聚与结构化：

不止“整理”，而是注入物理知识

数据结构化的第一步，是对多源异构原始数据进行格式化与特征化处理。但数据工作流的做法不止于此。

研究团队在无线地图估计任务中发现了一个关键洞察：给数据注入“物理感知”信息，能让AI对信号传播规律的理解显著提升。

具体来说，在构建无线数据的关系图时，不是简单地将基站、参考点、目标位置当作孤立的节点，而是引入了距离、相对角度等几何描述符，显式编码节点之间的空间关系。这套方法被系统化为“物理感知的查询条件图注意力网络”（Physics-Aware Query-Conditioned Graph Attention Networks，简称HGAT）[3]。

它的工作原理可以这样理解：当AI需要估计某个位置的信号强度时，它不是盲目参考附近所有已知测量点，而是通过物理感知的几何编码，理解每个参考点与目标之间的空间关系——哪个更近、哪个角度更可能受遮挡——从而更精准地分配注意力权重。

实验结果显示，仅通过这种数据结构化的增强，无线地图估计的精度就提升了12%。这个数字的意义在于：它是在不增加测量数据量、不改变模型容量的前提下，纯粹靠“让数据结构更懂物理规律”获得的增益。

目标数据合成：

优化数据策略选择，降低数据使用门槛

在结构化数据的基础上，数据工作流进一步支持根据具体业务场景需求，筛选、组合、增强数据，合成出最适合当前AI任务的高质量目标数据集。

这一步的价值在波束预测任务中得到了充分验证。研究团队在同一批原始数据和同一模型架构下，配置了不同的数据处理链，差异体现在特征转换、异常值处理、数据增强等环节的策略选择。

结果显示，研究人员可根据用例KPI不同，选择与之匹配的最优处理链，以实现最优预测精度，或者实现预测精度与处理时延的均衡。例如，同一批数据，不同的合成策略，在特定场景下，可实现最多40%预测精度提升，或者45%数据处理加模型训练综合时延降低。

应用闭环优化：

让数据与模型双向迭代

数据工作流建立数据与模型的双向反馈机制：模型在真实网络中的表现，反哺数据处理策略的调整；数据处理结果的优化，再驱动模型的迭代，形成持续闭环。

这一机制在多模态感知场景中得到了验证。在与南京大学智慧网络与通信研究院合作的无人机感知增强用例中，研究团队融合了视觉图像与无线感知数据实现无人机定位。通过数据融合策略与模型结构的协同优化——即数据与模型的双向迭代调优——使得基站对无人机空间位置感知和预测更加精准，波束方向更准确，从而获得无人机可达速率提升28.8%的增益[4]。

这正是闭环的核心价值：数据和模型不再各自为战，而是在迭代中互相校准。每一次模型的表现反馈，都在告诉数据处理环节“哪里还可以调得更好”。

平台开放：

让方法论成为可复用的基础设施

上述能力并非孤立的个案——它们运行在同一套平台架构之上。AIN数据平台目前已集成三大核心模块：

多场景数据仓库

接入多来源、多网络层级的结构化数据，覆盖多种典型无线场景。

在线工具链

提供可组合的数据处理工具，将经过验证的最佳实践（包括物理感知结构化方法）固化为标准流程。

一站式应用验证

支持在线数据-模型匹配、训练与评估，形成从数据到应用的完整闭环。

平台成果已在2026全球6G技术与产业生态大会上发布，面向学术界与工业界开放共享。研究团队的目标是：让数据处理的方法论——从物理感知的结构化编码，到场景驱动的数据合成，再到数据与模型的联合优化——不再停留在论文和个案中，而成为可访问、可复用、可验证的公共研究设施。

未来，AIN数据平台将持续汇聚更多典型场景用例，积累高质量数据集与工具链，与产业界、学术界共同推动6G内生AI的落地，让无线网络从“万物互联”真正迈向“万物智联”。