Federated Learning in Mobile Edge Networks : A Comprehensive Survey论文精读

0-0

论文摘要

近年来移动设备配备了越来越先进的传感和计算能力，再加上深度学习(DL)的进步，这为有意义的应用开辟了无数的可能性。传统的基于云的机器学习(ML)方法需要将数据集中在云服务器或数据中心，然而这会导致与不可接受的延迟和通信效率低下相关的关键问题。为此人们提出了移动边缘计算（MEC），以使智能更接近数据产生的边缘。然而移动边缘网络上的ML传统支持技术仍然需要与外部各方（例如边缘服务器）共享个人数据。最近鉴于日益严格的数据隐私立法和日益增长的隐私问题，引入了联邦学习（FL）的概念。在FL中终端设备使用本地数据来训练服务器所需的ML模型。然后终端设备将模型更新而不是原始数据发送到服务器进行聚合。FL可以作为移动边缘网络中的一项使能技术，因为它支持ML模型的协作训练，并且还支持DL来优化移动边缘网络。然而在大规模、复杂的移动边缘网络中，涉及具有不同约束的异构设备，这给大规模实施FL带来了通信成本、资源分配以及隐私和安全方面的挑战。在本论文中，我们首先介绍FL的背景和基础知识。然后强调了FL实施的上述挑战并回顾了现有的解决方案。此外还介绍了FL在移动边缘网络优化中的应用。最后讨论了FL的重要挑战和未来的研究方向。

由于当今的数据源主要位于云之外，移动边缘计算自然被提出作为一种解决方案，其中利用终端设备和边缘服务器的计算和存储能力来使模型训练更加接近到产生数据的地方。如中所定义，端-边-云计算网络包括：终端设备、边缘节点和云服务器。对于传统MEC方法中的模型训练，人们提出了一种协作范式，其中训练数据首先发送到边缘服务器，进行模型训练直至较低级别的DNN层，然后将更多计算密集型任务卸载到云端（图1）。然而，这种安排会产生大量的通信成本，并且特别不适合需要持续训练的应用程序。此外，边缘服务器的计算卸载和数据处理仍然涉及潜在敏感个人数据的传输。这可能会阻止对隐私敏感的消费者参与模型训练，甚至违反日益严格的隐私法。尽管已经提出了各种隐私保护方法，例如差分隐私（DP），但许多用户仍然不愿意公开他们的私人数据，因为担心他们的数据可能被外部服务器检查。这阻碍了技术和新应用的开发。

为了保证训练数据保留在个人设备上并促进分布式设备之间复杂模型的协作机器学习，引入了一种称为联邦学习的去中心化机器学习方法。在FL中，移动设备使用其本地数据来协作训练FL服务器所需的ML模型。然后将模型更新（即模型的权重）发送到FL服务器进行聚合。多轮重复这些步骤，直到达到所需的精度。这意味着FL可以成为移动边缘网络上ML模型训练的支持技术。

与传统的以云为中心的训练方法相比，在移动边缘网络上实施FL进行模型训练具有以下优势：

高效利用网络带宽(Highlyefficientuseofnetworkbandwidth)
隐私(Privacy)
低延迟(Lowlatency)

联邦学习概述

联邦学习（FederatedLearning）是一种机器学习方法，旨在让多个分布式数据源合作训练一个共享的机器学习模型，而无需将数据集中到一个中央位置。在传统的集中式机器学习中，所有数据都集中在一个地方进行训练，而在联邦学习中，数据仍然分布在不同的设备、服务器或边缘节点上，模型的训练在这些分布式设备上进行。
联邦学习的基本思想是将模型的训练推送到数据所在的地方，然后在本地进行训练，仅传输模型的参数更新。这有助于解决许多涉及隐私、安全和数据拥有者控制的问题，因为数据不需要离开数据拥有者的设备或服务器，同时仍然可以从多个数据源中汇总信息来训练一个全局模型。
联邦学习的一些关键特点和优点：隐私保护：由于数据不离开设备，联邦学习有助于保护个人数据的隐私，因为原始数据不会暴露给中央服务器或其他参与者。安全性：数据存储在本地，减少了中央服务器被攻击的风险，同时也降低了数据泄露的风险。去中心化：联邦学习适用于分布式系统，数据拥有者可以保持控制权，不需要将数据上传到中央位置。节约带宽：只传输模型参数更新，而不是原始数据，从而减少了通信成本和带宽需求。泛化性能：通过从多个数据源学习，联邦学习的模型通常能够更好地泛化到新数据。

FederatedAveraging(用于Google’sGboard)

联合平均算法（FederatedAveraging，简称FedAvg）是一种用于联邦学习的核心算法之一。它用于协调和聚合分布式设备或服务器上的本地模型更新，以创建一个全局共享模型，同时保护个体数据的隐私。FedAvg通常用于分布式机器学习和联邦学习场景，其中数据存储在不同的本地设备上，例如移动设备、传感器、云服务器或边缘节点。 0-1

步骤1（任务初始化）：服务器决定训练任务，即目标应用程序，以及相应的数据需求。服务器还指定全局模型和训练过程的超参数，例如学习率。然后服务器将初始化的全局模型和任务广播给选定的参与者。
步骤2（局部模型训练和更新）：基于全局模型，其中t表示当前迭代索引，每个参与者分别使用其本地数据和设备来更新局部模型参数。迭代t中参与者i的目标是找到最小化损失函数的最优参数，即更新后的局部模型参数随后发送到服务器。
步骤3（全局模型聚合和更新）：服务器聚合参与者的本地模型，然后将更新后的全局模型参数发送回数据所有者。重复步骤2-3，直到全局损失函数收敛或达到理想的训练精度。

0-2

0-3

联邦学习的统计学问题与挑战

在传统的分布式机器学习中，中央服务器可以访问整个训练数据集。因此服务器可以将数据集分割成遵循相似分布的子集。随后将子集发送到参与节点进行分布式训练。然而这种方法对于FL来说是不切实际的，因为本地数据集只能由数据所有者访问。
在FL设置中，参与者可能具有遵循不同分布的本地数据集，即参与者的数据集是非独立同分布的。虽然文献[23]中的作者表明，即使参与者之间的数据是非独立同分布(non-IID)的，上述FedAvg算法也能够实现理想的准确性，但文献[65]中的作者发现情况并非如此。例如，FedAvg训练的CNN模型的准确度比CIFAR-10集中训练的CNN模型的准确度低51%。这种准确性的下降进一步被证明可以通过推土机距离（EMD）来量化，即FL参与者的数据分布与人口分布相比的差异。因此当数据是非独立同分布且高度倾斜时，提出了数据共享，其中由FL服务器将跨所有类均匀分布的共享数据集发送给每个FL参与者。然后参与者根据其私有数据以及接收到的数据来训练其本地模型。仿真结果表明，由于减少了EMD，共享数据5%的情况下精度可以提高30%。然而，通用数据集可能并不总是可供FL服务器共享。

非独立同分布（Non-IID）

非独立同分布（Non-IID）是一种数据分布的特征，通常在机器学习和分布式学习中讨论。这个术语描述了数据集中样本之间不是独立且具有不同的概率分布的情况。
在非独立同分布的数据集中，样本之间可能存在相关性，或者它们来自不同的数据源或分布。这种情况与传统的独立同分布（IID）数据集不同，IID数据集中的样本是相互独立且从相同的分布中抽取的，这使得许多机器学习算法更容易应用。
非独立同分布的数据可以出现在各种应用中，例如，当不同用户的数据被收集并合并到一个数据集中时，每个用户的数据可能具有不同的分布，或者当数据在不同的时间段或地点被收集时，也可能出现非独立同分布的情况。
在机器学习中，处理非独立同分布的数据可能需要特殊的技巧和算法，以考虑数据之间的相关性或不同分布之间的差异。这对于分布式学习、联邦学习等领域尤为重要，因为在这些情况下，数据通常来自不同的设备或地点，可能会呈现非独立同分布的特点。处理非独立同分布数据的挑战之一是确保模型能够有效地泛化到不同的数据子集。

非独立同分布的举例

假设一个医疗研究项目，研究各种不同类型的癌症。研究涉及到多个医院，每个医院都有不同类型的癌症患者的医疗记录。这些医院合作进行研究，但出于隐私和安全原因，他们不愿意将病患数据中心集中在一起。因此，他们决定使用联邦学习的方法来训练一个癌症预测模型，而不共享原始数据。在这种情况下，每个医院都有自己的非独立同分布数据集：
医院A的数据集包含了乳腺癌患者的医疗记录。
医院B的数据集包含了前列腺癌患者的医疗记录。
医院C的数据集包含了肺癌患者的医疗记录。
这些数据集之间可能具有不同的特征分布，例如年龄、性别、病症严重程度等等，因为不同类型的癌症可能会影响不同人群。同时，由于这些数据集来自不同的医院，可能存在一些地理相关性，例如相同地区的医院可能存在类似的特征分布。

EMD

EMD是”EarthMover’sDistance”（推土机距离）的缩写，它是一种用于度量两个概率分布之间的差异或相似性的数学方法。EMD最初是在计算机视觉和图像处理领域中开发的，但后来在其他领域也得到了广泛的应用，包括自然语言处理、信息检索、生物信息学等。
在概率分布的上下文中，EMD衡量了将一个分布变换成另一个分布所需的最小成本。这个成本通常可以解释为“推土机”从一个分布堆积物料并移动到另一个分布的操作成本。EMD的计算涉及到将一个分布变换成另一个分布的最佳配对，以最小化总成本。这个配对被称为“流”（flow），它表示了如何从一个分布中移动质量到另一个分布中。
除了数据异构性之外，分布式学习算法的收敛性始终是一个问题。较高的收敛率有助于为FL参与者节省大量时间和资源，并且还显着提高联合训练的成功率，因为较少的通信轮数意味着减少了参与者的退出。为了确保收敛，文献[75]中的研究提出了FedProx，它将损失函数修改为还包括一个可调参数，该参数限制本地更新对当前模型参数的影响程度。FedProx算法可以自适应调整，例如，当训练损失增加时，可以调整模型更新以减少对当前参数的影响。仿真结果表明，由此实现了更快的收敛。

FedProx(Federated Proximal Optimization)

FedProx是一种用于联邦学习的优化算法，旨在改善在分布式学习环境中的模型收敛性和鲁棒性。
在联邦学习中，多个设备或客户端合作训练一个全局模型，但这些设备的数据通常分布不均匀，因此传统的联邦学习算法可能会在一些设备上过拟合，而在其他设备上欠拟合。为了解决这个问题，FedProx引入了正则化项，以平衡全局模型和本地模型之间的差异。
具体来说，FedProx的目标函数包括两个部分：全局损失和正则化项。全局损失用于在所有设备上训练全局模型，而正则化项用于衡量本地模型与全局模型之间的差异。这个正则化项的形式通常是L2正则化，但也可以采用其他正则化形式。通过调整正则化超参数（通常称为FedProx超参数），可以控制全局模型和本地模型之间的权衡，以实现更好的模型泛化性能。

FL协议

0-4

FL的独特特征和问题

与其他分布式机器学习方法相比，FL具有一些独特的特性和功能。
通信缓慢且不稳定：在数据中心的传统分布式训练中，可以假设通信环境是完美的，信息传输速率非常高并且不存在丢包。然而这些假设不适用于异构设备参与训练的FL环境。例如互联网上传速度通常比下载速度慢得多。此外一些无线通信渠道不稳定的参与者可能会因与互联网断开连接而退出。
异构设备：FL涉及具有不同资源限制的异构设备。例如设备可以具有不同的计算能力，即CPU状态和电池电量。这些设备还可以有不同程度的参与意愿，即FL训练非常消耗资源，并且鉴于训练在众多设备上的分布式性质，存在搭便车的可能性。
隐私和安全问题：正如我们之前讨论的，数据所有者对隐私越来越敏感。然而正如随后在第五节中介绍的那样，恶意参与者能够从共享参数中推断出敏感信息，这可能会破坏隐私保护。此外，我们之前假设所有参与者和FL服务器都是可信的。事实上，他们可能是恶意的。

通信成本

目标减小通讯轮数
增加并行性(即选择更多参与者参与每轮训练)×
增加每个参与者的计算量
修改训练算法来提高收敛速度
加入边缘服务器进行中间聚合

模型压缩(目标减少每轮通信期间从参与者发送到FL服务器的模型更新的大小)

低秩矩阵，通过将原始数据矩阵近似为低秩矩阵，可以实现数据的压缩和降维，减少存储空间和计算成本，同时保留关键信息，图像中的纹理和结构信息通常可以通过低秩分量和稀疏分量的组合来表示，从而实现图像去噪、压缩和恢复
矩阵的子采样（Subsampling）:采样是一种降低数据密度的方法，通常用于减小数据的尺寸，而保留数据中的主要特征。例如在图像处理中，子采样可以通过减少图像的分辨率来实现。例如，将高分辨率图像降采样为低分辨率图像，从而减小图像的尺寸，减少存储和传输成本。在信号处理中，子采样也可以用于减小信号的采样率，以减少数据的数量。
矩阵的量化（Quantization）:量化是将连续值映射到离散值的过程，通常用于降低数据的精度，从而减小数据的表示大小。例如在图像处理中，色彩量化是一个常见的例子，它将每个像素的颜色值映射到有限的离散颜色集合，以减小图像的颜色深度。

基于重要性的更新

基于对 DNN 模型的大多数参数值稀疏分布且接近于零的观察[107]，作者在[95]中提出了边缘随机梯度下降（eSGD）算法，该算法仅选择一小部分重要梯度作为在每轮通信期间与 FL 服务器通信以进行参数更新。 eSGD算法会跟踪两次连续训练迭代的损失值。如果当前迭代的损失值小于前一次迭代，这意味着当前训练梯度和模型参数对于训练损失最小化很重要，因此它们各自的隐藏权重被分配为正值。此外梯度也被传送到服务器以进行参数更新。一旦这不成立，即损失与前一次迭代相比增加，则选择其他参数根据其隐藏权重值进行更新。

资源分配

参与FL的设备是异构的，不同的数据集质量、算力、电量状态、参与训练的意愿。在设备异构与资源限制下，资源分配必须被优化以最大化训练效率。具体而言，下面几个问题需要被考虑：
参与方选择：通常参与方是随机选取的，FL训练进展被最慢的参与方给限制了。
联合广播与计算资源管理：即使移动设备算力迅速提升，许多设备仍面临广播资源的缺乏。(广播资源是指在通信网络中用于向多个接收者同时传输相同信息的资源。这种广播通常是一对多或多对多通信的一种形式，其中一个发送者可以同时向多个接收者发送相同的数据。广播资源在移动通信和计算资源管理中具有重要作用)
自适应聚合：传统聚合方法是同步方式，每隔固定时间间隔聚合一次。全局聚合频率的自适应校准会提高训练效率。
激励机制：在FL实践过程中，因为模型训练消耗资源，没有补偿参与方可能不情愿参与训练。另外，FL服务器与参与方存在信息不对称，参与方对自己的可用计算资源及数据质量有更好了解，因此激励机制必须精心设计，既能激励参与，又能减少信息不对称的潜在不利影响。

参与方选择

FedCS协议：该系统模型是一个MEC框架，MEC的运营商是在蜂窝网络中协调训练的FL服务器，蜂窝网络由有着异构资源的参与方移动设备组成。FL服务器首先执行资源请求步骤，以从随机选择的参与者收集诸如无线信道状态和计算能力之类的信息。MEC运营商根据这些信息，为后续的全局聚合阶段选择在预先指定的截止时间内完成训练的最大可能参与者人数。通过在每一轮中选择尽可能多的参与者，可以保持训练的准确性和效率。
一般来说，FL在其上实现的移动边缘网络环境是动态的、不确定的，具有可变约束，例如无线网络和电量条件。为此可以使用深度Q学习（Deep Q-Learning，DQL）优化模型训练的资源分配，如[119]所述。系统模型包括参与者，即移动设备，它们协作训练FL服务器所需的DNN模型。移动设备受到能源、CPU和无线带宽的限制。因此，服务器需要确定移动设备用于训练的适当数据量、能量和CPU资源，以最小化能量消耗和训练时间。移动设备的状态包括移动设备的数量、从服务器获取的能量。奖励定义为累积数据、能量消耗和训练延迟的函数。然后采用双深度Q网络（DDQN）[120]来解决服务器的问题。仿真结果表明，与贪婪算法相比，该方案能降低约31%的能量消耗，与随机方案相比，训练延迟降低了55%。
Deep Q-Learning（深度Q学习）是一种强化学习算法，旨在训练智能代理（如机器人、游戏玩家或自动驾驶汽车）来学习在不同环境中做出决策以最大化累积奖励的策略。
上述的资源分配方法关注改善FL训练效率，然而这可能导致一些FL参与者由于资源限制在聚合阶段掉队。如果每次训练轮都选取高算力设备参与设备，那么FL模型就会被该设备的数据分布给过度代表了，因此将公平性作为FL的一个附加目标，公平性在[124]中被定义为FL模型表现的变化幅度，如果测试正确率变化幅度大，表示缺乏公平性。
q-Fair FL（q-FFL）算法，对FedAvg中的目标函数重新加权，将损失函数中更高的权重分配到有更高损失的设备中。修改后的目标函数如下：

0-5

激励机制

Stackelberg博弈是一种博弈论中的博弈模型，它是由德国数学家Heinrich von Stackelberg于1934年首次提出的，用于描述一种领导者-追随者或领导者-跟随者的竞争关系。在Stackelberg博弈中，参与者被分为两个角色：领导者和追随者。
领导者：领导者是在追随者之前行动的参与者，他们可以预先制定策略，而追随者只能在领导者制定策略后选择响应策略。领导者的目标是最大化自己的利益。
追随者：追随者在领导者制定策略后，根据领导者的策略来选择响应策略，以最大化自己的利益。
Stackelberg博弈与其他博弈模型的主要不同之处在于时间序列，领导者先行动，而追随者后行动。这种博弈模型适用于许多实际情况，如价格竞争、市场份额争夺和产业战略制定等领域。在Stackelberg博弈中，领导者通常会获得较高的利润，因为他们能够利用其先行动的优势来控制市场或资源。追随者则需要根据领导者的策略做出反应，通常会面临一定的劣势。

隐私与安全问题

即使FL在协作训练时不需要交换数据，恶意参与方仍然可以基于其他参与方共享的模型推理出敏感信息。因此，本部分讨论关于FL中共享模型的隐私问题及解决方案。
差分隐私（DifferentialPrivacy，简称DP）是一种隐私保护技术，旨在在数据分析和发布敏感信息时保护个体的隐私。差分隐私的核心理念是通过添加噪声或扰动来对数据进行处理，以确保在分析中不会泄露个体的敏感信息。这种方法使得攻击者难以从发布的数据中推断出任何关于特定个体的准确信息。
尽管DP方案可以保护诚信参与方的隐私信息，但是这只在服务器是诚信的时起效。如果服务器是恶意的，将会导致更严重的隐私威胁。
文献[155]引入一种协作DL框架，使多参与方学习全局模型而无需上传它们显式的训练模型到服务器。如下图所示，每个参与方明智地从全局模型中选择要上传的梯度数量和要更新的参数数量，这样一来，恶意参与方就不能从共享模型中推理出明确信息。有趣的是，即使参与方不分享全部参数，不更新来自共享模型的全部参数，正确率依然接近服务器拥有全部数据做训练的情况。

0-6

L环境下，对于服务器来说检查参与方真实的训练数据是一件棘手的事情。因此，一个恶意的参与方可以通过制造脏标签（dirty-label）数据向全局模型投毒，其可以对DL处理过程造成很大分类错误。(“Sybil” 是一个计算机安全和网络安全领域的术语，指的是一种恶意行为，其中一个单一实体控制了多个虚假身份或节点，通常用于欺骗、破坏、操纵或干扰网络、系统或社交媒体平台。)
调查了基于sybil的数据投毒攻击对FL系统的影响。尤其是对于sybil攻击，恶意参与者试图通过创建多个恶意参与者来提高数据中毒在训练全局模型中的有效性。如下表所示，只有两个恶意参与者，攻击成功率可以达到96.2%。为了缓解sybil攻击，作者随后提出了一种防御策略，即FoolsGold，其关键思想是，诚实的参与者可以根据其更新的梯度与sybil参与者区分开来。
当参与方想要从全局模型中获益而不想为学习过程做贡献，便采用搭便车攻击。恶意参与方（即搭便车的人）可以伪装有着小样本参与训练或者可以选择其数据集一小部分参与训练，这样一来，诚信的参与者需要在FL训练过程中贡献更多资源。
文献[168]介绍了一种基于区块链的FL架构，称为BlockFL，在该架构中，参与者的本地学习模型更新通过利用区块链技术进行交换和验证。特别是，每个参与者训练并将训练过的全局模型发送给区块链网络中与其关联的矿工，然后获得与训练过的数据样本数量成比例的奖励。这样这个框架不仅可以防止参与者搭便车，还可以激励所有参与者为学习过程做出贡献。

针对移动边缘计算的FL应用

边缘缓存与计算卸载（Edge Caching and Computation Offloading）：考虑到边缘服务器的计算和存储容量限制，终端设备的一些计算密集型任务必须卸载到远程云服务器进行计算。此外，通常请求的文件或服务应该放在边缘服务器上，以便更快地检索，也就是说，当用户想要访问这些文件或服务时，不必与远程云通信。因此，可以通过FL协作学习和优化最佳缓存和计算卸载方案。
基站联合（Base Station Association）：在密集网络中，优化基站关联以限制用户面临的干扰非常重要。然而，利用用户数据的传统基于学习的方法通常假定这些数据是集中可用的。考虑到用户隐私限制，可以采用基于FL的方法。
车辆网络（Vehicular Networks）：车联网（IoV）[171]的特点是智能车辆具有数据收集、计算和通信功能，用于相关功能，例如导航和交通管理。然而，这些丰富的知识在本质上又是隐私和敏感的，因为它可以揭示驾驶员的位置和个人信息。