6. VPVet: Vetting Privacy Policies of Virtual Reality Apps

6.1 论文信息

  • 作者:Yuxia Zhan, Yan Meng, Lu Zhou, Yichang Xiong, Xiaokuan Zhang, Lichuan Ma, Guoxing Chen, Qingqi Pei, and Haojin Zhu
  • 年份:2024年
  • 会议:ACM Conference on Computer and Communication Security(CCS)
  • 研究机构:Shanghai Jiao Tong University,Xidian University,George Mason University
  • 主要内容:目前部分 VR 应用的隐私政策既不符合法律要求,也没有满足用户的期望,在可访问性、专属性、模糊性和真实性等方面均存在问题。为此,本文提出了一种自动审查 VR 应用的隐私政策合规性问题的工具 VPVet,可从隐私政策的可用性、完整性、粒度、最小化数据需要、一致性等五个方面评估隐私政策的质量。

6.2 问题分析

VR 应用中数据收集/使用/共享 (collection/usage/sharing,CUS) 过程复杂,与 VR 应用相关的隐私问题日益受到关注。然而,现有 VR 隐私政策在制定和执行方面存在诸多不足:

  1. 缺乏统一的评估标准

    • VR 平台分散且异构,导致隐私政策质量参差不齐,无法有效保障用户隐私权益。
  2. 现有评估工具在 VR 领域表现不佳

    • VR 领域存在许多特定的数据对象,导致现有隐私政策评估工具在处理 VR 领域的隐私政策时表现不佳。

6.3 研究方案

图6.1 VPVet 系统概览

图6.1 VPVet 系统概览

1. 数据收集

  • 隐私政策:选取了10个流行的VR平台,使用 WebScraper 和 Selenium 获取应用元信息和隐私政策链接,通过 urllib 下载并使用 HtmlToPlaintext 转为纯文本。
  • VR应用:选择三个独立VR平台(官方Quest商店、SideQuest、App Lab),自动下载APK进行分析。

2. 组件解析

基于 OPP-115 数据集训练了一个基于 PrivBERT 的组件解析器,用于多标签分类。

图6.2 分类类别

图6.2 分类类别

3. 提取 CUS 元组

CUS 元组表示为 ⟨e,d⟩,其中 e 是实体,d 是数据类型。提取流程如下:

图6.3 CUS 元组提取流程

图6.3 CUS 元组提取流程

(1)合成数据集增强模型

  • 结合 OVRSeen 同义词文件和 PI-Extract 数据集训练模型;
  • CUS 句子识别 F1-score:82.0%;
  • NER 模型 F1-score:86.5%。

(2)SoC 动词提取 CUS 元组

  • 利用 PolicyLint 中的 DED 树建立数据对象与实体之间的映射关系。

(3)术语化方法 VPVet

  • 基于 BERT 的句子嵌入模型将短语映射到语义空间;
  • 设定相似度阈值 0.8,合并同义词;
  • 最终扩展出 107 个节点和包含 8,042 个独特短语的同义词列表。

6.4 实验评估

1. 可获取性

  • 抓取 11,923 个 VR 应用,仅 29.5% 成功找到隐私政策;
  • 存在严重的重用现象:54.5%(1919/3521)的隐私政策被重复使用。
图6.4 重用隐私政策的数量及其重用频率

图6.4 重用隐私政策的数量及其重用频率


2. 完整性

  • 41.7% 的隐私政策未充分告知用户隐私权利;
  • 65.9% 的应用未解决儿童隐私问题;
  • 虽然超过 81% 的隐私政策包含 Data CUS,但不到 66% 包含 user rights、data retention 等关键组成部分。
图6.5 隐私政策包含必要组成部分的比例

图6.5 隐私政策包含必要组成部分的比例


3. 粒度

  • 从 VRPP-Corpus 提取了 25,895 个 CUS 元组;
  • PPG(Privacy Policy Granularity)和 CTG(CUS Tuple Granularity)分布如下。
图6.6 CUS 元组粒度和隐私策略粒度的分布情况

图6.6 CUS 元组粒度和隐私策略粒度的分布情况

图6.7 不同 VR 平台上的隐私政策的 PPG

图6.7 不同 VR 平台上的隐私政策的 PPG


4. 最小化

  • 94.9% (93/98) 的数据对象的过度宽泛比率 > 0.5;
  • 存在严重的数据收集过度宽泛问题。
图6.8 过度宽泛的数据对象及其过度宽泛率的分布图

图6.8 过度宽泛的数据对象及其过度宽泛率的分布图


5. 一致性

  • 对 286 个提供隐私政策和 APK 文件的应用进行一致性分析;
  • 85.3% 模糊声明其行为,15.7% 未披露;
  • 整体不一致率为 12.4%,主要集中在网络信息、地理位置和设备信息。
图6.9 一致性分析结果

图6.9 一致性分析结果


6.5 优缺点

优点

  1. 构建了第一个最大的 VR 隐私政策数据集 VRPP;
  2. 利用高质量合成数据提升 NER 模型精度;
  3. 多维度评估隐私政策质量(可用性、完整性、粒度、最小化、一致性)。

缺点

  1. 依赖单句分析提取 CUS 元组,无法实现跨句分析;
  2. 未充分整合上下文信息,影响提取精度。