3. Towards Automated Regulation Analysis for Effective Privacy Compliance

3.1 论文信息

  • 作者:Sunil Manandhar, Kapil Singh, Adwait Nadkarni
  • 年份:2024年
  • 会议:Network and Distributed System Security (NDSS)
  • 研究机构:IBM T.J. Watson Research Center
  • 主要内容:提出 ARC 方法,将法规文本结构化为元组形式,并开发 ARCBert 模型用于识别相似短语,从而简化法规比较过程。同时扩展 ARC 用于隐私政策合规性分析。

3.2 问题分析

分析隐私法规面临两大挑战:

  1. 法律术语难以理解,需了解每项法规特有词汇;
  2. 法规陈述依赖上下文,表达相同概念时表述差异大,难比较。

3.3 研究方案

ARC 框架

旨在将非结构化法规文本转换为保留上下文的结构化元组,支持多法规分析和隐私政策分析。

图3.1 ARC框架图

图3.1 ARC框架图

流程如下:

  1. 监管文本语义解析

    • 使用 HtmlToPlainText 预处理法规文件;
    • 使用 BERT+SRL 提取 argument 及 verb sense。
  2. 从短语中提取子句

    • 使用 Benepar 获取短语结构树,简化语句。
  3. 提取 ARC 元组

    • Data Flow Tuple:⟨Sender, Deontic Modal, Data Flow Verb, Receiver, Data Object, Transmission Principles⟩
    • Definition Tuple:⟨Definiendum, Definition Verb, Definiens⟩
    • Right Tuple:⟨Entity, Deontic Modal, Right Verb, Right Statement⟩
  4. 映射元组参数:归入传输原则属性。

应用模块

  • Multi-Regulation Analysis:识别法规间的相似性;
  • Evaluating Privacy Policy Completeness:识别隐私政策中缺失披露项。

3.4 实验评估

1. ARC 元组评估

使用 CCPA、GDPR、PIPEDA、VCDPA 构建数据集。

  • Data Flow Tuple F1-score:83.4%
  • Definition Tuple:ARC 召回率优于 LexNLP,准确率略低;
  • Right Tuple F1-score:81%
图3.2 Data Flow Tuple实验结果

图3.2 Data Flow Tuple实验结果

图3.3 Definition Tuple实验结果

图3.3 Definition Tuple实验结果

图3.4 Right Tuple实验结果

图3.4 Right Tuple实验结果


2. 多法规分析实验

训练基于 BERT 的模型 ARCBert,识别相似短语。

  • ARCBert 表现优于 GloVe,更准确识别语义相似短语。
图3.5 PIPEDA与GDPR的相似性得分

图3.5 PIPEDA与GDPR的相似性得分


3. 基于 Definition Tuple 的法规分析

比较 CCPA、GDPR、VCDPA 和 PIPEDA 的 definition tuple。

图3.6 基于Definition Tuple的相似性分析结果

图3.6 基于Definition Tuple的相似性分析结果

图3.7 各法规中最相似的3个定义

图3.7 各法规中最相似的3个定义


4. 方法普适性分析

在 16 个额外法规上运行 ARC,验证其泛化能力。

图3.8 ARC在16个法规上提取元组的结果

图3.8 ARC在16个法规上提取元组的结果

图3.9 20个法规的SRL参数聚类结果

图3.9 20个法规的SRL参数聚类结果


5. 隐私政策合规性分析

数据集

从 S&P 500 公司获取 1,864 个隐私政策。

构建 Policy Segment 分类器

使用 OPP-115 数据集训练 BERT 模型,F1-score 为 86%。

元组分析维度

  • 数据本体比较;
  • 属性值比较;
  • 属性存在性比较。
图3.10 合规性分析示例

图3.10 合规性分析示例

合规性分析结果

共发现 476 处缺失陈述。

图3.11 S&P 500企业的合规性分析结果

图3.11 S&P 500企业的合规性分析结果

手动验证结果

  • 缺失语句准确率:72.12%
  • 完全匹配准确率:90.13%
图3.12 隐私政策合规性验证结果

图3.12 隐私政策合规性验证结果


3.5 优缺点

优点

  1. 实现法规文本结构化表示;
  2. 支持法规相似性分析;
  3. 提升人工分析可靠性。

缺点

  1. OPP-115 数据集较旧;
  2. 关键词匹配忽略上下文;
  3. 忽略名词短语形式的数据流动词;
  4. “include”动词导致定义元组误报。