中莱达企业 中莱达企业

隐私保护/数据价值评估

背景介绍 

一、在数据交易的场景中: 

1)如何匹配交易双方?数据是个性化的,一份数据可能对有的机构有用、价值高,而对别的机构可能价值就不高。因此我们需要匹配到最合适的数据买卖交易双方,从而最大化整体价值。 

2) 如何基于隐私保护的场景完成数据价值评估?由于数据本身的特性,一旦被泄露,其价值就会大幅度减少,因此我们需要考虑到在“数据不出站”的场景下完成数据的价值评估 


二、在联邦学习的场景中: 

联邦学习意在保护数据隐私的情况下,多个参与方协作训练模型,参与方数据分布的异质性决 定模型是否能收敛;同时在有的交易场景中,买方想要获取一个模型,而当有多个参与方提供 数据参与模型训练的时候,需要考虑到每一个参与方的贡献度,从而公平分配收益。 

1)如何评估和选择数据,而无需共享任何数据样本? 尽管当前的方法可以合理评估客户的贡献,但在联邦学习中缺乏一个成熟的方法来全面理解个 体数据贡献。这一限制阻碍了透明度和评估的说服力。此外,开发这样的方法将有助于服务器 选择用于模型训练的最有价值的数据。 

2)如何预测和评估客户的贡献,而不涉及模型训练? 先前的方法涉及训练联邦模型以评估验证性能,或利用生成模型来学习数据分布。为了降低计 算成本或减少对验证数据的依赖,关键挑战在于开发不需要直接训练联邦模型的评估方法。这种能力对于具有复杂模型训练的联邦学习环境至关重要。 

3)如何在大规模环境中评估数据贡献者? 随着客户数量的增加,SV 方法的复杂性呈指数级增长。因此,在不需要数据访问的情况下提 供一个较低复杂度的评估方法将对大规模联邦学习环境至关重要,特别是涉及超过 100 个客户的情况。


技术效果 

1) 我们的评估方法目前在业界和学术界是速度最快的(复杂度对于评估人员的数量呈现线性增加),适用于大规模场景 

2) 我们的评估方法在联邦学习数据拟合场景中能够真实评估参与者贡献度 

3) 我们的评估方法能够达到 100%噪声数据识别率

4)数据隐私被保护,原始数据不可见,唯一可见信息是全噪声数据 

5)该方法对文本数据和图片数据都适用

评价此篇文档

我是小莱,有问题点我哦~