12. CAPP-130: A Corpus of Chinese Application Privacy Policy Summarization and Interpretation

12.1 论文信息

  • 作者:Pengyun Zhu, Long Wen, Jinfei Liu, Feng Xue, Jian Lou, Zhibo Wang, Kui Ren
  • 年份:2023年
  • 会议:NeurIPS 2023
  • 研究机构:浙江大学
  • 主要内容:创建首个中文移动应用隐私政策总结语料库 CAPP-130,并提出主题控制的摘要生成框架 TCSI-pp,提升隐私政策可读性。

12.2 问题分析

现有隐私政策自动总结方法存在以下局限性:

  1. 忽略技术术语和法律术语;
  2. 仅提取句子,未改写解释;
  3. 多数面向英文,缺少面向中文的研究。

12.3 研究方案

1. CAPP-130 语料库构建

  • 从小米和华为商店抓取前 100 名热门应用;
  • 清洗后获得 130 份隐私政策,共计 52,489 条标注句子;
  • Cohen Kappa 系数验证标注一致性(0.907)。
图12.1 CAPP-130语料库结构

图12.1 CAPP-130语料库结构

图12.2 CAPP-13语料库详细信息

图12.2 CAPP-13语料库详细信息

2. TCSI-pp 框架设计

图12.3 TCSI_pp算法框架

图12.3 TCSI_pp算法框架

  • 信息提取模块:使用 Fe(p, θe) 提取重要句子;使用 Ft(p, θt) 获取其主题;
  • 重写模块:使用 Fr(si,θr) 识别风险句子,Fgenerate(si,θg) 改写为易懂表述。

12.4 优缺点

优点

  1. 首个面向中文的细粒度隐私政策语料库;
  2. 提出了主题控制的隐私政策总结框架,可突出潜在隐私风险。

缺点

  1. 仅支持单句分析,忽略跨段落上下文关系;
  2. 数据实践类别有限,泛化能力较弱。