论文笔记:移动应用隐私权声明内容合规性检验方法
8. 移动应用隐私权声明内容合规性检验方法
8.1 论文信息
- 作者:王寅, 范铭, 陶俊杰, 雷靖薏, 晋武侠, 韩德强, 刘烃
- 年份:2024年
- 期刊:软件学报
- 研究机构:西安交通大学电子与信息学部
- 主要内容:提出了一种移动应用隐私权声明的多标签分类方法,并结合句法结构解析和实体识别进行安卓应用和小程序场的合规性检验。
8.2 问题分析
- 法律条例差异大,条目种类复杂,难以统一分类;
- 现有工作围绕文本开展,而文本与移动应用附加方式多样,获取难度不同。
8.3 研究方案
1. 多标签分类体系构建
参考多项法规和 Polisis 方法,构建包含 10 个一级标签、31 个二级标签的分类体系。
2. 多标签分类模型构建
- 数据集:21204 条语句;
- 使用 BERT-wwm-ext 模型 + Focal Loss 解决标签不平衡问题;
- 输入为分句后的子句集合,输出为每条子句的标签概率。
图8.1 数据集分布情况
3. 合规性检验
(1)条目完整性
- 27 个必要标签,缺失即判定不完整;
- 使用内容完整性指标评估。
(2)目的完整性
- 数据收集使用语句需包含数据类型、操作、目的;
- 构建词表并进行依存句法分析。
图8.2 词表示例
(3)表述清晰性
- 将模糊性分为五类;
- 设置距离阈值判断模糊性。
图8.3 模糊性检验示意图
8.4 实验评估
1. 多标签分类模型
- 在首级和次级标签上平均精确率均 > 94%。
图8.4 10 个首级标签的多标签分类模型评价指标
2. 条目完整性
- 对 1200 份隐私政策分析;
- 仅 20.8% 的隐私政策是完整的。
图8.5 条目完整性实验结果
3. 目的完整性
- “金融理财”类应用中 63% 存在目的缺失。
图8.6 目的完整性实验结果
4. 表述清晰性
- 94% 的隐私政策存在模糊表述;
- 主要集中在可能型表达、数量涵盖、抽象实体三类。
图8.7 表述清晰性实验结果
8.5 优缺点
优点
- 3个角度(条目完整性、目的完整性、表述清晰性)评估隐私政策合规性;
- 引入多标签分类模型,提高隐私政策条目识别能力。
缺点
- 目的完整性分析依赖词表,更新不及时会影响准确性;
- 数量涵盖和抽象实体分析中阈值设定主观,影响一致性。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Yanjunbi's Blog!
