数据赋能,AI能力飙升:AIN数据工作流定义无线AI的数据框架

2026/05/12 责任编辑:Hanson 访问:1046

当前,6G 正在经历一场根本性角色重构:它不再是单纯追求速率提升的传统通信管道,而是以内生AI为底座,深度融合通信、感知、计算、智能与安全的一体化系统。内生AI是这套系统的核心引擎,数据则是驱动引擎运转的燃料,其质量、结构与处理方式,直接决定着 AI 能力的释放上限。中国电信研究院无线智能技术研究中心在无线数据领域的探索发现,提升这项能力的关键,不一定是更大的模型或更多的算力——有时候,仅仅是换一种方式“喂”数据,预测精度就能提升40%。

这个发现指向一个被长期低估的问题:在无线网络智能化进程中,数据的“怎么做”,比“有多少”更重要。

被忽视的瓶颈:

数据与场景脱节,算法与应用脱节

无线网络正在从“万物互联”向“万物智联”演进,AI内生已成为6G研究的行业共识。但一个尴尬的现实是:大量无线AI算法至今停留在仿真阶段,难以在真实网络中复现预期效果。

问题出在哪里?研究团队将其归结为两个“脱节”:

数据与场景脱节

无线数据来自基站、终端、核心网等不同网元,格式、协议层级、时空粒度各不相同。同一批原始数据,用于波束预测和用于基站节能,所需的特征工程截然不同。高质量、可复用的训练数据长期供给不足。

算法与应用脱节

模型在理想数据集上训练完成后,部署到真实网络环境时,面临数据缺失、噪声干扰、分布漂移等挑战。模型结构没变,但数据供给的质量变了,性能自然打折扣。

这两个脱节的本质,是数据从“原料”到“燃料”的转化链条没有打通。基于此,中国电信研究院无线网络智能技术研究中心围绕无线数据的汇聚、处理、应用三个关键环节进行联合攻关,构建了从数据到AI应用的完整研究框架,并将系列成果集成为AIN数据平台。

破局之道:

打通“汇聚-处理-应用”的数据闭环

面向未来网络演进智慧内生的需求,中国电信研究院王越博士提出了AIN技术体系,其技术内核是“数据+算力+网络+AI”四位一体在无线侧的深度融合与内生协同[1][2]。围绕这一技术体系,在数据方向,团队聚焦数据工作流,构建了三个关键能力环节:

数据汇聚与结构化:

不止“整理”,而是注入物理知识

数据结构化的第一步,是对多源异构原始数据进行格式化与特征化处理。但数据工作流的做法不止于此。

研究团队在无线地图估计任务中发现了一个关键洞察:给数据注入“物理感知”信息,能让AI对信号传播规律的理解显著提升。

具体来说,在构建无线数据的关系图时,不是简单地将基站、参考点、目标位置当作孤立的节点,而是引入了距离、相对角度等几何描述符,显式编码节点之间的空间关系。这套方法被系统化为“物理感知的查询条件图注意力网络”(Physics-Aware Query-Conditioned Graph Attention Networks,简称HGAT)[3]。

它的工作原理可以这样理解:当AI需要估计某个位置的信号强度时,它不是盲目参考附近所有已知测量点,而是通过物理感知的几何编码,理解每个参考点与目标之间的空间关系——哪个更近、哪个角度更可能受遮挡——从而更精准地分配注意力权重。

实验结果显示,仅通过这种数据结构化的增强,无线地图估计的精度就提升了12%。这个数字的意义在于:它是在不增加测量数据量、不改变模型容量的前提下,纯粹靠“让数据结构更懂物理规律”获得的增益。

目标数据合成:

优化数据策略选择,降低数据使用门槛

在结构化数据的基础上,数据工作流进一步支持根据具体业务场景需求,筛选、组合、增强数据,合成出最适合当前AI任务的高质量目标数据集。

这一步的价值在波束预测任务中得到了充分验证。研究团队在同一批原始数据和同一模型架构下,配置了不同的数据处理链,差异体现在特征转换、异常值处理、数据增强等环节的策略选择。

结果显示,研究人员可根据用例KPI不同,选择与之匹配的最优处理链,以实现最优预测精度,或者实现预测精度与处理时延的均衡。例如,同一批数据,不同的合成策略,在特定场景下,可实现最多40%预测精度提升,或者45%数据处理加模型训练综合时延降低。

应用闭环优化:

让数据与模型双向迭代

数据工作流建立数据与模型的双向反馈机制:模型在真实网络中的表现,反哺数据处理策略的调整;数据处理结果的优化,再驱动模型的迭代,形成持续闭环。

这一机制在多模态感知场景中得到了验证。在与南京大学智慧网络与通信研究院合作的无人机感知增强用例中,研究团队融合了视觉图像与无线感知数据实现无人机定位。通过数据融合策略与模型结构的协同优化——即数据与模型的双向迭代调优——使得基站对无人机空间位置感知和预测更加精准,波束方向更准确,从而获得无人机可达速率提升28.8%的增益[4]。

这正是闭环的核心价值:数据和模型不再各自为战,而是在迭代中互相校准。每一次模型的表现反馈,都在告诉数据处理环节“哪里还可以调得更好”。

平台开放:

让方法论成为可复用的基础设施

上述能力并非孤立的个案——它们运行在同一套平台架构之上。AIN数据平台目前已集成三大核心模块:

多场景数据仓库

接入多来源、多网络层级的结构化数据,覆盖多种典型无线场景。

在线工具链

提供可组合的数据处理工具,将经过验证的最佳实践(包括物理感知结构化方法)固化为标准流程。

一站式应用验证

支持在线数据-模型匹配、训练与评估,形成从数据到应用的完整闭环。

平台成果已在2026全球6G技术与产业生态大会上发布,面向学术界与工业界开放共享。研究团队的目标是:让数据处理的方法论——从物理感知的结构化编码,到场景驱动的数据合成,再到数据与模型的联合优化——不再停留在论文和个案中,而成为可访问、可复用、可验证的公共研究设施。

未来,AIN数据平台将持续汇聚更多典型场景用例,积累高质量数据集与工具链,与产业界、学术界共同推动6G内生AI的落地,让无线网络从“万物互联”真正迈向“万物智联”。

本文来源:中国电信研究院

扩展阅读

  • 扫码关注微信公众号