20. PolicyChecker: Analyzing the GDPR Completeness of Mobile Apps’ Privacy Policies

20.1 论文信息

  • 作者:Anhao Xiang, Weiping Pei, Chuan Yue
  • 年份:2023年
  • 会议:ACM Conference on Computer and Communication Security(CCS)
  • 研究机构:Colorado School of Mines, The University of Tulsa
  • 关键词:Mobile App, Privacy Policy, GDPR, Completeness
  • 主要内容:提出基于规则和语义角色的方法 PolicyChecker,用于自动检测移动应用隐私政策是否满足 GDPR 第 13、14 条规定的完整性要求。

20.2 问题分析

现有研究存在以下局限性:

  1. 仅关注强制性要求,忽略 if-applicable 条款;
  2. 数据集规模小,难以全面揭示现状。

20.3 研究方案

1. GDPR 完整性规则

基于 GDPR 第 13、14 条构建完整性规则体系,包含:

  • 必要要求(强制)
  • If-Applicable 要求(条件性触发)
图20.1 GDPR完整性规则

图20.1 GDPR完整性规则

2. If-Applicable 要求逻辑链

构建六个逻辑链,模拟 if-applicable 要求在特定条件下变为强制要求的过程:

  • L1:用户同意 → 必须说明撤回权;
  • L2:合法利益 → 必须说明利益内容;
  • L3:数据共享 → 必须提供接收方身份;
  • L4:跨境传输 → 必须说明保障措施;
  • L5:自动化决策 → 必须说明逻辑和影响;
  • L6:合同义务 → 必须告知后果。

3. PolicyChecker 设计

图20.2 POLICYCHECKER框架图

图20.2 POLICYCHECKER框架图

(1)实践识别

提取所有动词并与预定义列表比对。

图20.3 动词列表

图20.3 动词列表

(2)构建谓词-论元结构

使用 SRL 构建句子的谓词-论元结构。

(3)语义角色匹配

  • 基础角色匹配:检查 Arg0(主语)、Arg1(宾语)是否存在;
  • 辅助角色匹配:进一步分析目的、条件等;
  • 不同实践匹配
    • 数据收集:需含 Arg0(收集方)、Arg1(数据类型)、ArgM-prp(目的);
    • 数据共享:需含 Arg1(共享对象)、ArgM-prp(目的);
    • 同意获取/撤销:需含 Arg0(请求方)、Arg1(同意内容);

(4)语义论元验证

使用 NER 模型 + n-gram 匹配识别参数,若失败则调用语义相似性比较。

(5)GDPR 完整性检查算法

检测两个方面:

  • 未满足的强制性要求;
  • if-applicable 要求是否在触发条件下被满足。
图20.4 完整性检测算法

图20.4 完整性检测算法


20.4 优缺点

优点

  1. 在细粒度上区分主题,提升完整性违规检测准确率;
  2. 方法扩展性强,可通过添加新规则快速适应法规更新。

缺点

  1. SRL 模型在复杂句式中表现不佳;
  2. NER 模型无法识别部分实体;
  3. 忽略跨句逻辑链分析。