专利 一种基于聚类分析的安全横向联邦学习方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210277784.7 (22)申请日 2022.03.16 (71)申请人中南民族大学地址 430000 湖北省武汉市洪山区民族大道708号、 823号申请人武汉空天软件技术有限公司 (72)发明人孟博　赵俊杰　王德军　王俊　康怡琳　李娜　 (74)专利代理机构武汉天领众智专利代理事务所(普通合伙) 42300 专利代理师谢非 (51)Int.Cl. G06N 20/20(2019.01) G06V 10/762(2022.01) G06K 9/62(2022.01)G06F 21/60(2013.01) (54)发明名称一种基于聚类分析的安全横向联邦学习方法 (57)摘要本发明公开了一种基于聚类分析的安全横向联邦学习方法，属于联邦学习数据安全性技术领域，通过采用密文计算的方式，让梯度值在密文的情况加进行计算，等计算完毕后在进行解密，通过聚类分析和服务器端参数的分析对比评分机制，来解决横向联邦学习中存在的数据投毒攻击和不诚实参与者问题，这在解决这个问题的同时，还可以在一定程度上提升训练的准确度，本发明方法通过同态加密的方式，实现在服务器上进行密态计算，来保证服务器上计算的安全性，本申请的方法主要是解决数据投毒和不诚实参与者的问题，可以在防止数据投毒和不诚实用户的同时，提高训练的准确度，并且通过同态加密的方式保证了梯度的安全性。权利要求书2页说明书6页附图2页 CN 114611722 A 2022.06.10 CN 114611722 A 1.一种基于聚类分析的安全横向联邦学习方法，其特征在于，包括以下步骤： S1、模型下载：首先用户从服务器下载初始模型； S2、模型训练：通过初始模型对数据集进行清洗，去除数据集中的空值，然后再进行聚类分析，找出数据集中的离群点，最后进行模型训练得到训练后的参数，从而形成用户训练模型； S3、数据集分析：用户的进行数据清洗后的数据集进行分析，针对于其分布情况，数据集的集中趋势(众数、中位数、均值)、数据的离散趋势(四分位差、极差、平均差、标准差)、数据的形状(峰度系数、偏度系数)； S4、参数传递：用户把训练完的参数发送到服务器，且用户发送的消息包括：离群值在数据集中的占比、离群点数量、数据集的大小、模型训练后得到的参数；数据集的集中趋势(众数、中位数、均值)、数据的离散趋势(四分位差、极差、平均差、标准差)、数据的形状(峰度系数、偏度系数)；模型训练后得到的参数，需进行同态加密，之后再进行传输； S5、数据集的分布趋势分析：服务器进行数据分析和训练结果的密态加权平均，判断各个用户的数据集的分布趋势一致性，把数据分布趋势相似而且评价值高于60的训练梯度值进行计算，对梯度的处理，主要保证其在密态的情况下，进行加权平均计算； S6、训练模型更新：用户获取新的参数信息，更新模型，重复S2 ‑S6的步骤，直到训练模型达到训练轮次或者到达到设置的阈值。 2.根据权利要求1所述的一种基于聚类分析的安全横向联邦学习方法，其特征在于：所述S2的模型训练中，首先需要进行数据清洗去除其中的空值和零值，然后采用Kmeans聚类算法找出数据集中的离群点和离群簇，模型再拿数据进行训练，得到梯度w i。 3.根据权利要求2所述的一种基于聚类分析的安全横向联邦学习方法，其特征在于：所述S3的数据集分析中，主要分析数据集的参数：集中趋势：众数、中位数、均值；离散趋势：四分位差、极差、平均差、标准差；数据集的形状：峰度系数、偏度系数。 4.根据权利要求3所述的一种基于聚类分析的安全横向联邦学习方法，其特征在于：所述S4中参与者需要发送给服务器的参数，离群值在数据集中的占比、离群点数量、数据集的大小、模型训练后得到的参数，数据集的集中趋势(众数、中位数、均值)、数据的离散趋势 (四分位差、极差、平均差、标准差)、数据集的形状(峰度系数、偏度系数)、加密的梯度值，梯度和数据量的乘积的加密值 wij。 5.根据权利要求4所述的一种基于聚类分析的安全横向联邦学习方法，其特征在于：所述S5中进行数据分析和梯度的密态加权平均，首先对收到的所有参数的数据进行分类整合，按照参数的重要性设置除了梯度外的每一个参数的评分值，评分规则按照各类型参数的正太的分布范围进行打分，只有数据评分达到60的参与者的梯度值才能参与最后的聚合，在梯度值确定之后，进行梯度值的密态的加权计算， 6.根据权利要求5所述的一种基于聚类分析的安全横向联邦学习方法，其特征在于：所述S6中获取到新的参数之后，需要把Δw解密，解密后的再除以新参数中聚合参数的数据量权　利　要　求　书 1/2 页 2 CN 114611722 A 2的和，达到新的Δw ′，之后进行新一轮的训练，直到训练模型达到训练轮次或者到达到设置的阈值。权　利　要　求　书 2/2 页 3 CN 114611722 A 3

专利 一种基于聚类分析的安全横向联邦学习方法

专利一种基于聚类分析的安全横向联邦学习方法