7. 大数据平台上的隐私保护及合规关键技术研究

7.1 论文信息

  • 作者:杨露
  • 年份:2021年
  • 研究机构:四川大学计算机学院
  • 主要内容:提出一种自动抽取隐私政策中的合规规则的方法,并设计基于图匹配的合规分析方法,以评估大数据平台的数据处理合规性。

7.2 问题分析

  1. 隐私政策中目的表达句法特征不明显,难以准确抽取;
  2. 大数据平台审计日志缺乏支持数据使用目的的隐私合规性分析能力。

7.3 研究方案

1. 目的感知规则(PAR)

定义四元组:PAR = {Actor, Action, Data Object, Purpose}。

图7.1 目的感知规则示意图

图7.1 目的感知规则示意图

2. 抽取方法流程图

图7.2 目的感知规则抽取方法流程图

图7.2 目的感知规则抽取方法流程图

3. 合规验证方法

构建数据规则图和数据处理图,统一表达数据规则和处理过程。

图7.3 数据规则图模型

图7.3 数据规则图模型

图7.4 数据处理图模型

图7.4 数据处理图模型

图7.5 合规分析算法

图7.5 合规分析算法


7.4 实验评估

1. 规则抽取实验

  • 600 条句子作为实验数据集;
图7.6 数据集情况

图7.6 数据集情况

  • 显式目的抽取精确率高但召回率低;
  • 隐式目的抽取依赖 SRL 工具,效果一般;
  • 改进 SwiRL 模型后显著提升隐式目的抽取效果。
图7.7 显式目的的抽取结果

图7.7 显式目的的抽取结果

图7.8 隐式目的的抽取结果

图7.8 隐式目的的抽取结果

图7.9 改进后的SwiRL模型实现的隐式目的的抽取结果

图7.9 改进后的SwiRL模型实现的隐式目的的抽取结果

2. 合规验证方法实验

图7.10 隐私规则抽取对比试验

图7.10 隐私规则抽取对比试验


7.5 优缺点

优点

  1. 实现了对隐私政策中数据使用目的的自动抽取;
  2. 提出显式与隐式目的表达方式,提高覆盖率;
  3. 使用图结构建模数据处理规则和过程,便于合规性分析。

缺点

  1. 语义角色标注模型依赖人工标注,效率不高。