PDF转Excel:高效去除AI特征,实现数据自由编辑
717
2022-05-30
假设某一天,某地社保局接到了教育局的求助, 希望提供社保表,和教育局自身的毕业生信息表 进行联合分析, 以得到2020年各学校的毕业生实力。
这时候社保局犯了难,两会会议里刚提过隐私保护相关的议题:
隐私频频泄露,数据亟需监管与治理
数据监管与治理尤为重要。当下数据存在被滥用的情况,一些互联网平台旗下子公司之间,数据可以无障碍共享,这实际上侵犯了个人隐私,也容易造成风险的扩散。
——金融科技观察者、私募基金管理人毕研广
那么,在教育局和社保局的这次分析合作中,社保局怎么确认,自己的哪些情况,可能存在泄露, 哪些情况不算泄露呢?
这时,我们可以引入联邦分析字段分类的概念, 先对表字段分个类,再根据联合计算的结果,来判断字段是否存在确认是否泄露了数据。
联邦分析数据字段分类
对于联邦sql分析而言, 每个字段都可以按照业务含义,进行分类。
以社保局和教育局为例,我们可以先思考下会用到哪些东西:
当双方进行联合计算时, 一定存在可以进行关联的身份证号码, 这样教育局就可以把社保局中属于毕业生的记录给找出来,而不会牵涉到其他无关者的数据。
既然要计算, 一定会用到敏感数据, 例如教育局肯定想要社保表里的社保缴纳金额,或者银行表的每月还款金额, 进行加减乘除得到分数。
也会有一些用来做分组或者条件判断的名词,例如学校名称、 社保缴纳类型…加语句可以根据社保类型=城镇职工,来过滤掉非城镇缴纳社保的学生。
那么业务场景可以概括为: 使用身份证做连接—>使用社保类型做分组或者条件过滤->使用敏感数据做统计和计算
我们结合数据建模的概念,可以把字段分成唯一标识、度量、维度三种类型。
唯一标识
用于标识某个事物实体身份的字段。
例如身份证、工号、公司代码等。
度量
指会参与统计、计算的度量数据,且都是敏感的。
例如薪水、纳税、用电量、成交量
维度
指一般不参与数值聚合和计算的分类数据
例如等级(13-20)、公司类型(上市、不上市)、城市名称等。
其他字段
名字、地址等个人关联信息,既不会用于数据关联, 也不会参加数据计算,也不能进行整体分类,因此无必要的情况下, 不建议开放这些字段给计算参与方。
可能泄露的场景
例如社保表的id全集如果泄露了, 那么教育局就可以知道总共有哪些人交过社保, 从而推出哪些毕业生没交过社保, 也许那个学生就被母校催着就业了。 因此是否交过社保, 理应也是学生们的个人隐私
实际原因在于社保表的id全集泄露,导致教育局可以分析谁在表中,谁不在表中。
具体的度量数据, 是一种数值波动比较大的数字资产。
例如单个社保金额10000, 可能没什么太大参考意义
但如果是
10000、11000、10101、8000… 这一大批数字, 则就会泄露社保数据的实际分布情况。
因此度量数据在表中的全集是不应当泄露的。
正常要让这批数据进行求和、求平均, 或者和多方表进行四则运算, 得到非原值的集合。
前面提过,如果只是单独抽出1个社保金额10000, 没什么太大影响。
但如果能被外界看到 “身份证xxx, 社保金额10000” 这样的记录,那么就泄露了xxx这个人的实际社保金额。
因此如果度量数据泄露了很少的值, 但是每个值都有对应的唯一标识,那么这就属于隐私数据泄露。
维度是已知的数据, 例如社保类型,只有农村居民、 城镇职工、城镇居民三类, 泄露了全集根本不影响什么。
但是如果身份证和社保类型一起出现,那么就泄露了每个人的实际缴纳类型。
换个更实际点的例子
疾病名称,总共就那么多疾病, 但如果能通过和医院的联合计算, 得到每个人当前所患疾病,这就会引发很多问题。
维度应当以不和id绑定的情况下出现, 作为分组的键值,或者作为条件的过滤
因此对参与联合分析计算的数据提供者来说,应当重点关注发起的任务是否会暴露这些信息, 以及计算系统能否通过规则和算法来检测、规避泄露风险。
EI企业智能 可信智能计算服务 TICS 数据湖治理中心 DGC 智能数据
版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。