14. A BERT Based Approach to Measure Web Services Policies Compliance With GDPR

14.1 论文信息

  • 作者:Hao Cui, Rahmadi Trimananda, Athina Markopoulou, Scott Jordan
  • 年份:2021年
  • 期刊:IEEE Access
  • 研究机构:University of Maryland at Baltimore County
  • 主要内容:提出了一种检测 Web 隐私政策与 GDPR 合规性的方法。使用 BiLSTM 多分类模型识别 GDPR 类别,并结合 BERT 模型提取上下文表示,计算隐私政策与 GDPR 的相似度得分,判断其是否合规。

14.2 问题分析

企业在制定隐私政策时面临以下挑战:

  1. 监管文件内容庞大且复杂

    • GDPR 包含 99 篇文章,人工提取关键规则耗时费力。
  2. 隐私政策与法规长度差距大

    • 隐私政策文本较短,难以直接关联到法规条目。

14.3 研究方案

1. 监管文档(GDPR)知识图谱构建

确定了四个核心实体:

  • Controller(控制者)
  • Processor(处理者)
  • Data Subject(数据主体)
  • Supervisory Authority(监管机构)

通过命名实体识别(NER)提取这些实体并填充到知识图谱中。同时将句子分为两类:Permissions 和 Obligations。

图14.1 方法架构图

图14.1 方法架构图

2. 构建隐私政策语料库

爬取了 3000 多个符合 GDPR 的隐私政策文档,并提取上述四类实体信息。

图14.2 语料库分布情况

图14.2 语料库分布情况

3. 隐私政策文本分类

使用多种机器学习和深度学习模型进行多类分类实验:

  • 浅层模型:朴素贝叶斯、随机森林、逻辑回归、支持向量机;
  • 深度模型:CNN、LSTM、BiLSTM。
图14.3 文本分类模型结果

图14.3 文本分类模型结果

结果显示,深度学习模型在小文本数据集上表现更佳

4. 隐私政策摘要生成

采用 BERT 分词器对隐私政策分句,输入预训练 BERT 模型生成嵌入向量,再用 K-Means 聚类提取最相关句子作为摘要。

图14.4 文本摘要方法

图14.4 文本摘要方法

5. 隐私政策知识图谱构建

使用 Protégé 工具构建知识图谱,定义类 Web_Service_Provider,包含:

  • GDPR 类别预测;
  • 摘要;
  • 与法规的相似度得分(余弦相似度)。
图14.5 知识图谱示例

图14.5 知识图谱示例


14.4 优缺点

优点

  1. 提出基于 BERT 的框架,自动匹配隐私政策与 GDPR 条款;
  2. 使用 BERT 进行摘要提取,能保留更多语义信息。

缺点

  1. 对隐私政策的整体审核不够细致,未深入分析收集的数据类型范围。