5. Have You been Properly Notified? Automatic Compliance Analysis of Privacy Policy Text with GDPR Article 13

5.1 论文信息

  • 作者:Shuang Liu, Baiyang Zhao, Renjie Guo, Guozhu Meng, Fan Zhang, Meishan Zhang
  • 年份:2021年
  • 会议:International World Wide Web Conference Committee
  • 研究机构:College of Intelligence and Computing, Tianjin University
  • 关键词:Privacy, Compliance Analysis, Natural Language Processing
  • 主要内容:提出了一种自动分析隐私政策内容的方法,以检测数据控制者是否违反了 GDPR 第13条关于数据收集的通知义务。

5.2 问题分析

  1. GDPR 包含大量特定法律术语,普通用户难以理解;
  2. 隐私政策文本长,用户往往不愿通篇阅读;
  3. 服务提供商可能无意违反法律法规。

5.3 研究方案

框架组成

图5.1 隐私政策内容分析框架图

图5.1 隐私政策内容分析框架图

(1)句子分类

  • 创建语料库:基于 GDPR 第13条提取10个标签,人工标注304份隐私政策,共36,610个句子;
  • 训练模型:SVM、BiLSTM、BERT;
  • 针对标签不平衡修改损失函数。

(2)合规分析

  • 提出9条规则,形式为:if A holds, then B must be satisfied;
  • 合规性分析任务分解为句子分类任务;
  • 判定逻辑:A → B ≡ ¬A ∨ B。
图5.2 合规规则

图5.2 合规规则


5.4 实验评估

1. 分类准确性评估

使用 Precision、Recall、F1-score 作为指标。

图5.3 分类模型结果

图5.3 分类模型结果

  • BERT 表现最佳
  • BiLSTM 次之;
  • SVM 最低。
图5.4 F1-score与句子长度的关系

图5.4 F1-score与句子长度的关系


2. 合规性分析

  • 使用 BERT 模型进行合规性分析;
  • accuracy: 90%,recall: 91%;
  • 107 个问题未被检测到,其中 73 个是由于分类错误造成。

3. 可用性评估

开发了一个名为 AutoCompliance 的 Web 应用程序。

图5.5 AutoCompliance工具

图5.5 AutoCompliance工具

  • 用户调研显示:该工具将阅读时间减少 55%,具有较高可用性。

5.5 优缺点

优点

  1. 创建了一个关于隐私合规分析的语料库;
  2. 将合规分析巧妙转化为句子分类任务。

缺点

  1. 语料库存在数据不平衡问题,影响分类准确性。