21. A Fine-grained Chinese Software Privacy Policy Dataset for Sequence Labeling and Regulation Compliant Identification

21.1 论文信息

  • 作者:Kaifa Zhao, Le Yu, Shiyao Zhou, Jing Li, Xiapu Luo, Yat Fei Aemon Chiu, Yutong Liu
  • 年份:2022年
  • 会议:EMNLP
  • 研究机构:The Hong Kong Polytechnic University
  • 主要内容:构建首个中文隐私政策数据集 CA4P-483,包含 483 个 Android 应用的隐私政策及细粒度注释,推动中文隐私政策自动分析工具发展。

21.2 问题分析

现有隐私政策数据集主要面向英文,缺乏对中文隐私政策的支持。


21.3 研究方案

1. 数据集构建

(1)数据收集

  • 使用 html2text 提取网页隐私政策;
  • 使用 tagtog 进行标注。

(2)数据标注

参考中国《个人信息保护法》相关标准,定义七类标签:

  • Data Controller:数据控制者;
  • Data Entity:数据实体;
  • Collection:数据收集;
  • Sharing:数据共享;
  • Condition:数据收集条件;
  • Purpose:数据使用目的;
  • Data Receiver:数据接收者。
图21.1 CA4P-483数据集统计信息

图21.1 CA4P-483数据集统计信息

图21.2 数据集示例

图21.2 数据集示例

2. 分类测试

评估了 HMM、BiLSTM、BiLSTM-CRF、BERT-BiLSTM-CRF、Lattice-LSTM 等模型在该数据集上的性能。

  • Receiver 准确率 > 90%;
  • Collect & Share 准确率约 60%,因与其他标签存在重叠;
  • Condition 易与 Purpose 混淆。
图21.3 动词列表

图21.3 动词列表


21.4 优缺点

优点

  1. 构建了首个中文隐私政策数据集,集成大量细粒度注释。

缺点

  1. 依赖数据收集和共享词汇定位相关句子,可能忽略枚举形式的条款。