22. PPCA: Privacy Policy Compliance Analysis for Personal Information Protection Law

22.1 论文信息

  • 作者:Peng Tang, Xin Li, Xiheng Zhang, Weidong Qiu
  • 年份:2023年
  • 会议:IEEE Smart World Congress (SWC)
  • 研究机构:Shanghai Jiao Tong University
  • 主要内容:基于《个人信息保护法(PIPL)》,建立分类法并构建小型隐私策略数据集,训练机器学习模型用于自动化合规检测。

22.2 问题分析

由于隐私政策复杂且专业,大多数研究集中于 GDPR,缺乏对 PIPL 的支持。


22.3 研究方案

1. 基于 PIPL 的分类方案

结合《个人信息保护法》和《个人信息安全规范》,构建三级分类法:

  1. CONTROLLER:描述控制者身份和联系方式;
  2. REPRESENTATIVE:指定代表监督数据处理;
  3. DPO:指定数据保护官;
  4. PD COLLECTION & PROCESSING:说明数据处理方式;
  5. PD SHARING.CONDITION:说明数据共享条件;
  6. DATA SUBJECT RIGHT:说明数据主体权利;
  7. COMPLAINT:说明投诉机制;
  8. PD PRINCIPLE:明确合理目的、最小化;
  9. TRANSFER OVERSEAS:说明跨境传输;
  10. PD STORAGE:说明保存期限;
  11. PD SECURITY:说明安全措施;
  12. CHILDREN:未成年人数据处理;
  13. NON-PIPL:其他地区法规;
  14. OTHERS:未标记情况。
图22.1 分类方案

图22.1 分类方案

2. 隐私政策数据集构建

  • 使用 Selenium 自动下载隐私政策;
  • 清洗 DOM 中非文本元素(如 video、img、footer);
  • 提取文本并组织为 XML 结构;
  • 最终获得 100 份隐私政策并手动标注。

3. 合规检测分类器

使用 TF-IDF 向量作为输入,训练以下模型:

  • XGBoost
  • 随机森林 (RF)
  • 额外树 (ET)
  • 逻辑回归 (LR)
  • KNN
  • 决策树 (DT)
  • SVC

为每个概念节点训练二分类器,实现自动检测。


22.4 优缺点

优点

  1. 提出了针对《个人信息保护法》的分类法,涵盖所有关键条款。

缺点

  1. 分类体系不够细致,例如 Level3 层级信息不全。