联邦策略:FedSCR#
概览#
稀疏方法 |
量化方法 |
残差 |
编码 |
上行 |
下行 |
|
---|---|---|---|---|---|---|
FedSCR |
结构化阈值 |
None |
Yes |
None |
Yes |
No |
处理Non-IID |
处理 Dropping/Skipping |
通用性 |
||||
自适应阈值 |
None |
只能应用在Conv Net |
FedSCR的主要motivation是选择性地将部分重要更新进行回传,主要贡献如下
对卷积网络中参数更新的pattern进行实证研究,发现“处于同一filter”和“处于同一channel”的参数梯度往往有很强的相关性
按照(1)中的结论,在upstream的时候将选择性地不传输一些“不重要”(绝对值和低于threshold)的filter或channel参数,作为sparsity的方法
针对non-iid的情况提出了adaptive FedSCR,能够按照异质性的情况控制每个client有不同的threshold
实证研究#
观察到在卷积神经网络的训练过程中,同一个filter下的、对应同一个channel的参数之间有很强的相关性:图中是在epoch=1/15/50/100时对于一固定层参数梯度值的可视化:其中每三行对应该层的一个filter,一个filter中每三列对应该层input的一个channel,可以观察到同一行/列的参数之间有很大的相关性
同一filter/channel中weights的更新梯度很相似
当一个参数接近拟合,同一filter/channel中的其他参数有很大概率也接近拟合
压缩设计#
数学表达#
计算一个Channel对应的梯度绝对值之和: 计算一个Filter对应的梯度绝对值之和:
如果C/F < threshold,则将这一channel/filter置0;
Pseudo Code (Compression)#
Adaptive FedSCR#
为了针对non-iid的数据分布,提出了adaptive FedSCR,目的是让每个client根据自身参数更新的情况(Weight Divergence,Significance of Local Updates)以及全局数据分布的情况(Impact of Data Distribution)调整每个client做稀疏化时用的threshold
收敛证明#
reference:Structure-Based Communication Reduction for Federated Learning
实验#
on threshold#
on Convergence#
on Convergence (non-iid, compare with FedSTC)#
on accuracy#
参考文献#
Structure-Based Communication Reduction for Federated Learning