论文笔记：CAPP-130-A Corpus of Chinese Application Privacy Policy Summarization and Interpretatio

发表于2024-10-20|更新于2025-05-27

|浏览量:

12. CAPP-130: A Corpus of Chinese Application Privacy Policy Summarization and Interpretation

12.1 论文信息

作者：Pengyun Zhu, Long Wen, Jinfei Liu, Feng Xue, Jian Lou, Zhibo Wang, Kui Ren
年份：2023年
会议：NeurIPS 2023
研究机构：浙江大学
主要内容：创建首个中文移动应用隐私政策总结语料库 CAPP-130，并提出主题控制的摘要生成框架 TCSI-pp，提升隐私政策可读性。

12.2 问题分析

现有隐私政策自动总结方法存在以下局限性：

忽略技术术语和法律术语；
仅提取句子，未改写解释；
多数面向英文，缺少面向中文的研究。

12.3 研究方案

1. CAPP-130 语料库构建

从小米和华为商店抓取前 100 名热门应用；
清洗后获得 130 份隐私政策，共计 52,489 条标注句子；
Cohen Kappa 系数验证标注一致性（0.907）。

图12.1 CAPP-130语料库结构

图12.1 CAPP-130语料库结构

图12.2 CAPP-13语料库详细信息

图12.2 CAPP-13语料库详细信息

2. TCSI-pp 框架设计

图12.3 TCSI_pp算法框架

图12.3 TCSI_pp算法框架

信息提取模块：使用 Fe(p, θe) 提取重要句子；使用 Ft(p, θt) 获取其主题；
重写模块：使用 Fr(si,θr) 识别风险句子，Fgenerate(si,θg) 改写为易懂表述。

12.4 优缺点

优点

首个面向中文的细粒度隐私政策语料库；
提出了主题控制的隐私政策总结框架，可突出潜在隐私风险。

缺点

仅支持单句分析，忽略跨段落上下文关系；
数据实践类别有限，泛化能力较弱。

文章作者: Yanjun Bi

文章链接: http://yanjunbi19.asia/blog/2024/10/20/%E8%AE%BA%E6%96%87%E7%AC%94%E8%AE%B0-CAPP-130%20A%20Corpus%20of%20Chinese%20Application%20Privacy%20P/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Yanjunbi's Blog！