MAIB讲座第21期: 深度学习时代下的集成学习：机遇和挑战

Tlexander · 帖子由 **Tlexander楼主** » 2023年 7月 7日 19:51

https://ai2healthcare.github.io/

https://mp.weixin.qq.com/s/bDe0II-1h5nVi-dbMlesHA

主讲人：Dr. Yongquan Yang(杨永全), AI algorithm R&D Engineer at Sichuan University

杨永全，人工智能算法研究和应用工程师，Artificial Intelligence Review等期刊审稿人。近年来主要研究方向为深度学习时代背景下的集成学习和弱监督学习算法，及其在医学智能辅助诊断中的应用，包括基于全数字玻片图像的组织区域识别、癌区域分割、乳腺癌新辅疗效预测标志物构建，以及乳腺癌术后残余癌分割等。相关工作发表在Artificial Intelligence Review, Patern Recognition, Journal of Translational Medicine, NPJ Breast Cancer 等期刊，授权专利3项。

演讲内容概要：

由于深度学习（主要是深度神经网络）在各种人工智能应用中占据主导地位，最近基于深度神经网络的集成学习（集成深度学习）在提高学习系统的泛化性能方面表现出显著的效果。然而，由于现代深度神经网络通常具有数百万到数十亿个参数，与传统的集成学习相比，训练多个基础深度学习器并使用集成深度学习器进行测试所需的时间和空间开销要大得多。虽然已经提出了一些快速集成深度学习算法来推动集成深度学习在某些应用中的部署，但对于许多特定领域的应用来说，仍然需要进一步的进展，因为这些领域的开发时间和计算资源通常受限，或者要处理的数据具有较高的维度。一个迫切需要解决的问题是如何在减少所需费用的同时发挥集成深度学习的显著优势，以便更多的特定领域应用能从中受益。为了缓解这个问题，了解集成学习在深度学习时代的发展非常重要。因此，在本文中，我们提出了关于已发表作品的数据分析、方法论、最新进展以及传统集成学习和集成深度学习的局限性的讨论。我们希望这篇文章对于认识在深度学习时代下集成学习未来发展所面临的固有问题和技术挑战具有帮助。

集成深度学习，即结合多个深度神经网络的方法，已经成为提高学习系统泛化能力的一种强大方法。然而，现代深度神经网络的规模较大，训练多个基础深度学习器并使用集成深度学习器进行测试时，时间和资源需求方面存在挑战。虽然已经提出了一些快速的集成深度学习算法，但需要进一步的进展，以在资源有限或高维数据的应用中广泛采用集成方法。目标是在降低集成深度学习相关费用的同时利用其优势。本文重点关注在深度学习时代集成学习的发展，包括已发表作品的数据分析、方法论、最新进展以及传统集成学习和集成深度学习的局限性

集成深度学习（Ensemble Deep Learning）是一种将多个深度学习模型组合起来形成一个更强大、更准确的模型的方法。在集成深度学习中，多个深度学习模型被训练来解决同一个问题，然后它们的预测结果被整合或者投票来得到最终的预测。

集成深度学习可以通过减少模型的方差、提高模型的鲁棒性以及降低过拟合的风险来提高预测性能。通过使用不同的初始条件、不同的模型架构、不同的超参数或者不同的训练数据子集，集成深度学习可以获得多个互补的模型，从而提高整体预测的准确性。

为什么这个topic如此重要？

hci · 帖子由 **hci（海螺子）** » 2023年 7月 7日 21:51

Gpt4据说是8个模型的集成

Tlexander · 帖子由 **Tlexander楼主** » 2023年 7月 8日 01:08

hci 写了： 2023年 7月 7日 21:51 Gpt4据说是8个模型的集成

是的，8个模型的集成学习

Tlexander · 帖子由 **Tlexander楼主** » 2023年 7月 8日 22:39

Ensemble Deep Learning（集成深度学习）和Federated Learning（联邦学习）是两种不同的机器学习方法，用于处理不同类型的问题和数据环境。它们有以下区别：

1. 数据分布和访问：
- 集成深度学习：在集成深度学习中，数据通常是集中存储在单个中心化位置。训练集成模型时，所有数据都可用于中心化的训练过程。
- 联邦学习：联邦学习适用于分布式环境，其中数据存储在多个边缘设备或数据中心中。在联邦学习中，数据保留在本地设备上，并且仅共享模型参数的更新。数据不会直接在中心服务器上共享或访问。

2. 数据隐私和安全性：
- 集成深度学习：在集成深度学习中，数据通常需要集中存储在中心服务器上，这可能引发数据隐私和安全性方面的担忧。
- 联邦学习：联邦学习通过在本地设备上保留数据，并在本地进行模型训练，从而更好地保护数据的隐私和安全性。数据不离开本地设备，只有模型参数的更新才被发送到中心服务器。

3. 模型训练方式：
- 集成深度学习：在集成深度学习中，使用中心化方法对所有数据进行训练，可以将多个模型（如神经网络）组合成一个更强大的模型。
- 联邦学习：联邦学习使用迭代的方式进行模型训练。中心服务器会发送模型参数的初始版本给本地设备，在本地设备上训练模型，并将参数更新发送回中心服务器。这个过程在中心服务器和本地设备之间进行多次迭代，以达到模型的优化。

4. 可扩展性：
- 集成深度学习：集成深度学习通常在中心服务器上进行训练，因此对服务器的计算资源和存储能力有一定要求。
- 联邦学习：联邦学习的可扩展性更强，因为模型的训练发生在本地设备上，中心服务器只需要处理参数的更新。这种分布式的训练方式使得联邦学习适用于大规模的数据集和设备。

总的来说，集成深度学习适用于中心化数据环境下的模型集成和训练，而联邦学习则适用于分布式数据环境下的模型训练，并且更注重数据隐私和安全性。选择哪种方法应该根据具体的问题、数据环境和隐私需求来决定。

新未名空间

MAIB讲座第21期: 深度学习时代下的集成学习：机遇和挑战

MAIB讲座第21期: 深度学习时代下的集成学习：机遇和挑战

Re: MAIB讲座第21期: 深度学习时代下的集成学习：机遇和挑战

Re: MAIB讲座第21期: 深度学习时代下的集成学习：机遇和挑战

Re: MAIB讲座第21期: 深度学习时代下的集成学习：机遇和挑战