15. Viopolicy-Detector: An Automated Approach to Detecting GDPR Suspected Compliance Violations in Websites

15.1 论文信息

  • 作者:Haoran Ou, Yong Fang, Yongyan Guo, Wenbo Guo, Cheng Huang
  • 年份:2022年
  • 会议:RAID
  • 研究机构:四川大学网络空间安全学院
  • 主要内容:提出一种自动化检测网站隐私政策与实际行为之间不一致的方法,重点分析数据收集一致性。

15.2 问题分析

现有研究对隐私政策分析粒度过粗,仅关注整体评估,未从细粒度角度划分隐私政策内容。


15.3 研究方案

1. 数据收集一致性分析

从两个方面对比:

  • 声明收集数据(DCD):从隐私政策中提取;
  • 实际收集数据(ACD):通过网站行为检测获取。

最终对比 DCD 与 ACD,判断是否存在违规行为。

图15.1 方法框架

图15.1 方法框架

2. 个人数据分类

文中将个人数据分为八类,用于标注隐私政策语料库。

图15.2 个人数据分类

图15.2 个人数据分类

3. 隐私政策分析

使用 BiLSTM 模型完成多标签分类任务,输出每类数据类型的概率值。

图15.3 多标签分类模型

图15.3 多标签分类模型

4. 网站行为检测

通过 AST 技术解析 JavaScript 代码,提取 API 函数调用,建立 API 到数据类型的映射关系。

图15.4 抽象语法树示例

图15.4 抽象语法树示例

图15.5 映射算法

图15.5 映射算法


15.4 优缺点

优点

  1. 对隐私政策和网站行为进行了细粒度分析;
  2. 提出了个人数据分类方案及对应的API映射机制。

缺点

  1. 缺乏动态分析,无法准确捕捉 API 执行细节。