马赛克效应

马赛克效应指在信息和数据处理过程中,来自不同来源的非敏感数据被组合后,意外地揭示出敏感或机密信息的现象。[1]这种效应的名称来源于马赛克艺术中,由许多小的、独立的图块拼接成一幅完整图像的概念。应用于公共使用数据时,马赛克效应的概念表明,即使是单独看来无害的匿名数据,如果发布了足够多的包含相似或补充信息的数据集,也可能容易被重新识别。[2]

举个例子,有下面一个数据集:

User XXXX个人行程数据[3]
时间 到达地点
20240516 中国北京 - 中南海 20240516 中国北京 - 大兴国际机场 20240517 中国哈尔滨 - 中俄博览会开幕式 20240517 中国哈尔滨 - 哈尔滨工业大学 20240518 俄罗斯莫斯科

只要结合俄罗斯总统普京的个人行程和代表团成员名单,即使我们隐去了这位用户的真实姓名,仍然不难将 XXXX 用户关联到普京及其代表团的成员身上。如果辅以其他信息,我们还能更加精确的锁定此人的身份。这种情形被称为马赛克效应,这种技术被称为“推理攻击”

参考文献

  1. ^ mosaic effect – The Centre for Humanitarian Data. [2024-05-22] (美国英语). Mosaic effect is when disparate pieces of data or information—although individually of limited utility—become significant when combined with other types of information. 
  2. ^ Rushing, Elizabeth. The mosaic effect: the revelation risks of combining humanitarian and social protection data. Humanitarian Law & Policy Blog. 2021-02-09 [2024-05-22] (美国英语). 
  3. ^ https://m.thepaper.cn/newsDetail_forward_27417781.  缺少或|title=为空 (帮助)