使用一维的wifi信号实现人体分割和姿势估计的细粒度的人体感知。挑战主要有两个方面:
- wifi天线只能接受EM波的一维幅度,从一维信息中重建3维的空间细粒度信息是一个不适定(ill-posed)问题
- 环境对传感信号的影响
设备:一组发射天线,一组接收天线。每组天线三个天线排列,类似于标准的WiFi路由器。
理论
对于从一维的WIFI信号重建三维的空间信息的不适定问题,有两种解决方案:
- 使用多个一维WiFi信号。论文中使用3X3的天线模式,产生30个EM波,每个天线对可以捕获到来自不同路径的信号的叠加,提取信号的信道状态信息CSI,可以产生30*3*3个CSI数据。
- 约束映射复杂性。从视频生成多个2D空间表示,利用深度学习将CSI映射到这些空间表示(不是直接将CSI映射成3D空间)。所有的这些表示共享相同的空间布局,同时突出不同的身体结构,如身体分割掩码、关节和四肢。
设备中一共有9对收发天线,每个天线对提供30个一维EM波信号的叠加(中心频率为2.4GHz,带宽为20MHz。被提取为信道状态信息CSI H=W(P,E,T,R,F))以及多个2D空间注释(RGB图片,人体分割掩码和关节坐标点),将视频与CSI样本保持同步,以20FPS频率取样视频,以100Hz频率取样CSI样本,保证一个视频帧对应于5个CSI数据。然后使用RGB图像生成多个空间表示作为标签数据(Annotation)用于开发深度学习网络【8】,标签数据:
- 利用Mask R-CNN【18】来制作人体分割的掩码(SM),尺寸1*46*82;
- 使用OpenPose【8】的最新的Body-25模型输出人体关节热图(JHM)26*46*82(26=25个关节+1个背景)和Part Affinity Fields(PAF)52*46*82(52=26个肢体的x、y坐标)。
网络结构
- 网络输入:对应于一个视频帧的5个CSI幅度样本150*3*3(根据CSI-Net,应该用的是CSI幅度)
- 上采样:150*96*96
- 残差卷积模块
- U-Nets【41】:SM和JHMS高度互补,使用一个U-Net和两个独立的U-Nets生成SM、JSMs效果相似(上图中表示论文使用了一个U-Net生成SM和JHNs)。
- 下采样:高度维上stride=2,宽度维上stride=1。RF尺寸为140*140
- 网络输出:SM、JHM、PAF c*46*82
网络重构CSI数据的空间信息并映射到输出中:CSI数据的尺寸的三个维度分别表示时间信息(5)× EM频率(30)和天线之间的发送对(3*3)。因为发射天线和接收天线之间的相对距离和角度不同,所以3×3个发送对之间传送了9个对同一场景下的1维CSI,这9个数据之间的差异就反映了场景中的空间布局。因此网络对3维的输入向量沿着3X3进行2D卷积,利用9个天线对之间传播的信号重建2D空间信息
损失函数:
[8] Z. Cao, T. Simon, S.-E. Wei, and Y. Sheikh. Realtime multiperson 2d pose estimation using part affinity fields. In CVPR,2017. 2, 4, 5, 6
[41] O. Ronneberger, P. Fischer, and T. Brox. U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted intervention, pages 234–241. Springer, 2015.