论文笔记：A Fine-grained Chinese Software Privacy Policy Dataset for Sequence Labeling and Regulation Compliant Identification

发表于2024-12-06|更新于2025-05-27

|浏览量:

21. A Fine-grained Chinese Software Privacy Policy Dataset for Sequence Labeling and Regulation Compliant Identification

21.1 论文信息

作者：Kaifa Zhao, Le Yu, Shiyao Zhou, Jing Li, Xiapu Luo, Yat Fei Aemon Chiu, Yutong Liu
年份：2022年
会议：EMNLP
研究机构：The Hong Kong Polytechnic University
主要内容：构建首个中文隐私政策数据集 CA4P-483，包含 483 个 Android 应用的隐私政策及细粒度注释，推动中文隐私政策自动分析工具发展。

21.2 问题分析

现有隐私政策数据集主要面向英文，缺乏对中文隐私政策的支持。

21.3 研究方案

1. 数据集构建

（1）数据收集

使用 html2text 提取网页隐私政策；
使用 tagtog 进行标注。

（2）数据标注

参考中国《个人信息保护法》相关标准，定义七类标签：

Data Controller：数据控制者；
Data Entity：数据实体；
Collection：数据收集；
Sharing：数据共享；
Condition：数据收集条件；
Purpose：数据使用目的；
Data Receiver：数据接收者。

图21.1 CA4P-483数据集统计信息

图21.1 CA4P-483数据集统计信息

图21.2 数据集示例

图21.2 数据集示例

2. 分类测试

评估了 HMM、BiLSTM、BiLSTM-CRF、BERT-BiLSTM-CRF、Lattice-LSTM 等模型在该数据集上的性能。

Receiver 准确率 > 90%；
Collect & Share 准确率约 60%，因与其他标签存在重叠；
Condition 易与 Purpose 混淆。

图21.3 动词列表

图21.3 动词列表

21.4 优缺点

优点

构建了首个中文隐私政策数据集，集成大量细粒度注释。

缺点

依赖数据收集和共享词汇定位相关句子，可能忽略枚举形式的条款。

文章作者: Yanjun Bi

文章链接: http://yanjunbi19.asia/blog/2024/12/06/%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0-A%20Fine-grained%20Chinese%20Software%20Privacy%20Policy%20Dat/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Yanjunbi's Blog！