论文笔记:CAPP-130-A Corpus of Chinese Application Privacy Policy Summarization and Interpretatio
12. CAPP-130: A Corpus of Chinese Application Privacy Policy Summarization and Interpretation
12.1 论文信息
- 作者:Pengyun Zhu, Long Wen, Jinfei Liu, Feng Xue, Jian Lou, Zhibo Wang, Kui Ren
- 年份:2023年
- 会议:NeurIPS 2023
- 研究机构:浙江大学
- 主要内容:创建首个中文移动应用隐私政策总结语料库 CAPP-130,并提出主题控制的摘要生成框架 TCSI-pp,提升隐私政策可读性。
12.2 问题分析
现有隐私政策自动总结方法存在以下局限性:
- 忽略技术术语和法律术语;
- 仅提取句子,未改写解释;
- 多数面向英文,缺少面向中文的研究。
12.3 研究方案
1. CAPP-130 语料库构建
- 从小米和华为商店抓取前 100 名热门应用;
- 清洗后获得 130 份隐私政策,共计 52,489 条标注句子;
- Cohen Kappa 系数验证标注一致性(0.907)。
图12.1 CAPP-130语料库结构
图12.2 CAPP-13语料库详细信息
2. TCSI-pp 框架设计
图12.3 TCSI_pp算法框架
- 信息提取模块:使用 Fe(p, θe) 提取重要句子;使用 Ft(p, θt) 获取其主题;
- 重写模块:使用 Fr(si,θr) 识别风险句子,Fgenerate(si,θg) 改写为易懂表述。
12.4 优缺点
优点
- 首个面向中文的细粒度隐私政策语料库;
- 提出了主题控制的隐私政策总结框架,可突出潜在隐私风险。
缺点
- 仅支持单句分析,忽略跨段落上下文关系;
- 数据实践类别有限,泛化能力较弱。
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Yanjunbi's Blog!
