18. Actions Speak Louder than Words: Entity-Sensitive Privacy Policy and Data Flow Analysis with POLICHECK

18.1 论文信息

  • 作者:Benjamin Andow et al.
  • 年份:2020年
  • 会议:USENIX Security Symposium
  • 研究机构:North Carolina State University, IBM Watson
  • 主要内容:提出了一种实体敏感的流到策略一致性分析工具 POLICHECK,用于判断应用程序是否如实披露其隐私敏感行为。

18.2 问题分析

现有方法未区分接收隐私数据的实体,容易造成误判。


18.3 研究方案

1. 一致性模型

定义五种披露类型:

  • Clear Disclosures(清晰披露)
  • Vague Disclosures(模糊披露)
  • Omitted Disclosure(省略披露)
  • Incorrect Disclosure(错误披露)
  • Ambiguous Disclosure(含糊披露)

2. 隐私政策本体处理

使用 PolicyLint 的简化策略形式 p = (e, c, d) 表示隐私声明。

引入三种语义关系:

  • 语义等价 x ≡oy
  • 包容性关系 x y
  • 语义近似 x ≈oy

定义了本体距离函数,用于衡量术语间的相似度。

3. 声明提取

使用 PolicyLint 提取共享和收集声明,扩展其同义词列表以提高召回率。

4. 动态分析

使用 AppCensus 捕获系统日志和网络流量,提取 (destination domain/IP address, data type) 元组。

图18.2 动态分析涉及的数据类型

图18.2 动态分析涉及的数据类型

5. 域到实体映射

从 AppBrain 获取广告商和分析提供商列表,构建域名与实体的映射表。

6. 第一方实体分类

通过包名和隐私政策链接判断目标域是否属于第一方。

图18.1 方法框架图

图18.1 方法框架图


18.4 优缺点

优点

  1. 正式定义了实体敏感的一致性模型;
  2. 区分第一方与第三方实体,提高分析准确性。

缺点

  1. 动态分析使用值匹配和启发式方法,可能遗漏加密或复杂编码的数据;
  2. 隐私策略提取依赖 PolicyLint,召回率受限;
  3. 仅跟踪有限的数据类型;
  4. 域到实体映射局限于热门广告商和分析服务商。