EchoPrint:在智能手机上使用声学和视觉的双因素身份验证
摘要
- 本文提出了一种新的用户认证系统EchoPrint,它利用声学和视觉来实现安全和方便的用户认证,而不需要任何特殊的硬件。
- EchoPrint从耳机扬声器主动发出几乎听不见的声音信号,“照亮”用户的脸,并通过从3D面部轮廓反弹的回声中提取的独特特征来验证用户。
- 为了消除语音中姿势的影响,本文通过训练卷积神经网络(CNN)来提取可靠的声学特征,并将这些特征与视觉人脸标志点位置相结合,提供给二进制支持向量机分类器进行最终认证。由于回声特征依赖于3D面部几何形状,EchoPrint不会像2D视觉人脸识别系统那样容易被图像或视频欺骗。它只需要商用硬件,从而避免了像FaceID这样的解决方案中特殊传感器的额外成本。
- 对62名志愿者和图像、照片、雕塑等非人类对象的实验表明,EchoPrint达到了93.75%的均衡准确率和93.50%的F-score,没有观察到基于图像/视频的攻击成功。
评估
数据采集
在数据收集之前,我们从我们的机构获得了所需的人体受试者培训书。45名不同年龄、性别和肤色的参与者参加了实验。 参与者脸部外观的多样性帮助我们捕捉到足够的数据来创建一个强大的特征提取模型。 我们还包括5个非人类类别:打印/展示在不同材料的人脸,如纸张、桌面显示器、纸盒上的照片、墙壁和大理石雕塑。在数据收集过程中,每个参与者都被要求将智能手机放在他/她的脸前面,以确保人脸对齐。为了适应手机的轻微移动,参与者被鼓励慢慢移动手机以覆盖不同的姿势。当人脸超出有效区域时捕获的数据将被自动丢弃。从每个用户捕获大约120秒的数据,大小约为7-8MB,包含2000个样本。 为了确保多样性,在不同的背景噪声和照明条件下,在多种不受控制的环境(例如,安静的实验室、嘈杂的教室和室外环境)中收集数据。我们更容易接触到的一部分参与者在不同的时间和地点的多个会话中收集数据。面部地标也会同时被检测和记录,但不会记录面部图像来保护参与者的隐私。数据集总共包含来自50个类别的91708个有效样本。我们将其分为三个部分,70%用于模型训练,15%用于模型验证和测试。此外,还有12名志愿者作为新用户加入模型评估。
CNN特征提取器的性能
我们利用测试数据集比较了不同分类器和特征提取方法的性能。
不同的分类器。 我们训练的CNN的最后一个完全连接的层被移除,以便剩余的网络用作一般的特征提取器。这样提取的特征最后被馈送到不同的分类器以进行最终分类。我们比较了线性回归(LR)、线性判别分析(LDA)、K近邻、决策树、朴素贝叶斯、支持向量机和独立神经网络(NN)。下图A中的框图显示了上下四分位数和中位数。
从长方体延申出来的线条显示精度范围,胡须以外的异常值被标记为圆圈。我们发现支持向量机的性能优于其他分类器,并且训练时间很短(15.06s,而NN的训练时间为65.38s,性能次之)。因此,我们使用支持向量机作为认证的最终分类器。
不同的特征。 我们比较了不同的常用声学特征:谱图(SPEC)、梅尔倒谱系数(MFCC)、色谱图(CHRO)、光谱对比度(CONT)和我们的CNN特征。上图B显示了使用支持向量机分类器的准确性。我们的CNN特征提取器的性能由于所有其他特征,并且达到了约95%的准确率,这表明了CNN特征提取器的有效性和必要性。Spectrogram的准确率较低,约为85%,色谱图为67%。MFCC和CONT的准确率要低得多,约为37%,这是我们所预期的,因为他们主要用于人类语音识别,而不是EchoPrint使用的主动声学传感。此外,使用CNN特征训练支持向量机模型所需的15.06s只是使用谱图训练所需的134s的一小部分。在资源受限的移动设备上训练模型时,这是一个显著的改进,这对用户注册的速度至关重要。
新用户的性能
为了评估预先训练好的CNN为新用户提取特征的能力,我们邀请了另外12名志愿者,他们的数据在CNN培训中没有使用。每个志愿者遵循相同的2分钟的数据采集过程,一种一半用于支持向量机的训练,另一半用于测试。 我们为每个志愿者训练一个单类支持向量机模型,并用来自用户的正样本和来自所有其他用户的负样本(包括CNN训练中使用的50个类别的数据)对模型进行测试。
总结
数据采集部分,我们首先邀请45名志愿者参加实验以得到一个强大的特征提取模型。
当得到这个特征提取模型后,我们邀请了新的12名志愿者。为每个志愿者训练一个单类支持向量机模型,并用来自用户的正样本和所有其他用户的负样本对模型进行测试。