论文笔记:Have You been Properly Notified? Automatic Compliance Analysis of Privacy Policy Text with GDPR Article 13
5. Have You been Properly Notified? Automatic Compliance Analysis of Privacy Policy Text with GDPR Article 13
5.1 论文信息
- 作者:Shuang Liu, Baiyang Zhao, Renjie Guo, Guozhu Meng, Fan Zhang, Meishan Zhang
- 年份:2021年
- 会议:International World Wide Web Conference Committee
- 研究机构:College of Intelligence and Computing, Tianjin University
- 关键词:Privacy, Compliance Analysis, Natural Language Processing
- 主要内容:提出了一种自动分析隐私政策内容的方法,以检测数据控制者是否违反了 GDPR 第13条关于数据收集的通知义务。
5.2 问题分析
- GDPR 包含大量特定法律术语,普通用户难以理解;
- 隐私政策文本长,用户往往不愿通篇阅读;
- 服务提供商可能无意违反法律法规。
5.3 研究方案
框架组成
图5.1 隐私政策内容分析框架图
(1)句子分类
- 创建语料库:基于 GDPR 第13条提取10个标签,人工标注304份隐私政策,共36,610个句子;
- 训练模型:SVM、BiLSTM、BERT;
- 针对标签不平衡修改损失函数。
(2)合规分析
- 提出9条规则,形式为:if A holds, then B must be satisfied;
- 合规性分析任务分解为句子分类任务;
- 判定逻辑:A → B ≡ ¬A ∨ B。
图5.2 合规规则
5.4 实验评估
1. 分类准确性评估
使用 Precision、Recall、F1-score 作为指标。
图5.3 分类模型结果
- BERT 表现最佳;
- BiLSTM 次之;
- SVM 最低。
图5.4 F1-score与句子长度的关系
2. 合规性分析
- 使用 BERT 模型进行合规性分析;
- accuracy: 90%,recall: 91%;
- 107 个问题未被检测到,其中 73 个是由于分类错误造成。
3. 可用性评估
开发了一个名为 AutoCompliance 的 Web 应用程序。
图5.5 AutoCompliance工具
- 用户调研显示:该工具将阅读时间减少 55%,具有较高可用性。
5.5 优缺点
优点
- 创建了一个关于隐私合规分析的语料库;
- 将合规分析巧妙转化为句子分类任务。
缺点
- 语料库存在数据不平衡问题,影响分类准确性。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Yanjunbi's Blog!
