论文笔记:PPCA:Privacy Policy Compliance Analysis for Personal Information Protection Law
22. PPCA: Privacy Policy Compliance Analysis for Personal Information Protection Law
22.1 论文信息
- 作者:Peng Tang, Xin Li, Xiheng Zhang, Weidong Qiu
- 年份:2023年
- 会议:IEEE Smart World Congress (SWC)
- 研究机构:Shanghai Jiao Tong University
- 主要内容:基于《个人信息保护法(PIPL)》,建立分类法并构建小型隐私策略数据集,训练机器学习模型用于自动化合规检测。
22.2 问题分析
由于隐私政策复杂且专业,大多数研究集中于 GDPR,缺乏对 PIPL 的支持。
22.3 研究方案
1. 基于 PIPL 的分类方案
结合《个人信息保护法》和《个人信息安全规范》,构建三级分类法:
- CONTROLLER:描述控制者身份和联系方式;
- REPRESENTATIVE:指定代表监督数据处理;
- DPO:指定数据保护官;
- PD COLLECTION & PROCESSING:说明数据处理方式;
- PD SHARING.CONDITION:说明数据共享条件;
- DATA SUBJECT RIGHT:说明数据主体权利;
- COMPLAINT:说明投诉机制;
- PD PRINCIPLE:明确合理目的、最小化;
- TRANSFER OVERSEAS:说明跨境传输;
- PD STORAGE:说明保存期限;
- PD SECURITY:说明安全措施;
- CHILDREN:未成年人数据处理;
- NON-PIPL:其他地区法规;
- OTHERS:未标记情况。
图22.1 分类方案
2. 隐私政策数据集构建
- 使用 Selenium 自动下载隐私政策;
- 清洗 DOM 中非文本元素(如 video、img、footer);
- 提取文本并组织为 XML 结构;
- 最终获得 100 份隐私政策并手动标注。
3. 合规检测分类器
使用 TF-IDF 向量作为输入,训练以下模型:
- XGBoost
- 随机森林 (RF)
- 额外树 (ET)
- 逻辑回归 (LR)
- KNN
- 决策树 (DT)
- SVC
为每个概念节点训练二分类器,实现自动检测。
22.4 优缺点
优点
- 提出了针对《个人信息保护法》的分类法,涵盖所有关键条款。
缺点
- 分类体系不够细致,例如 Level3 层级信息不全。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Yanjunbi's Blog!
