立志实现 AGI 的 Ilya Sutskever 曾向另一位 AGI 孤勇者 John Carmack 推荐了一份精选的阅读清单,内含尖端的研究论文及资料,包括神经网络架构与理论、深度学习应用、机器学习模型优化与正则化、机器学习系统与算法、人工智能理论与哲学、计算复杂性与算法随机性等干货知识。
Ilya 认为,如果 Carmack 能够深入理解并吸收这些论文的精髓,这位传奇游戏开发者、火箭工程师和VR梦想家将掌握当今科技界最为关键的90%的知识。
同样的道理适用于致力于AI工作的每一个人,超越不了 Ilya,就在他推荐的干货知识里畅游吧!
以下为 Ilya 推荐的学习清单:
《循环神经网络的正则化》 (Recurrent Neural Network Regularization)
论文链接:https://arxiv.org/pdf/1409.2329
该论文提出了适用于长短期记忆网络(LSTM)的Dropout正则化技术,有效减少了过拟合问题,并在多种任务上提高了LSTM的性能。
《简化神经网络的权重信息最小化》 (Keeping Neural Networks Simple by Minimizing the Description Length of the Weights)
论文链接:https://www.cs.toronto.edu/~hinton/absps/colt93.pdf
该论文 探讨了通过最小化权重的描述长度来简化神经网络的方法,并通过引入噪声和调整噪声水平来优化网络的泛化能力。
《指针网络》 (Pointer Networks)
论文链接:https://arxiv.org/pdf/1506.03134
该论文介绍了指针网络,这是一种新型神经网络架构,能够学习输出序列中离散标记的条件概率,使用注意力机制作为指针选择输入序列中的成员作为输出。
《神经图灵机》 (Neural Turing Machines)
论文链接:https://arxiv.org/pdf/1410.5401
该论文介绍了神经图灵机(NTM)结合了神经网络和图灵机的计算模型,能够模拟图灵机的计算过程,并在某些任务上表现出优越的性能。
《关系循环神经网络》 (Relational-RNN: A Deep Curiosity-Driven Framework for Unsupervised Relational Learning)
论文链接:https://arxiv.org/pdf/1806.01822
该论文介绍了关系循环神经网络(Relational-RNN)是一种用于无监督关系学习的深度学习框架,利用好奇心驱动的方法来探索和学习数据中的潜在关系。
《基于深度卷积神经网络的ImageNet图像分类》 (ImageNet Classification with Deep Convolutional Neural Networks)
论文链接:
https://proceedings.neurips.cc/paper_files/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf
该论文介绍了深度卷积神经网络在ImageNet图像分类任务上的应用,展示了深度学习进行大规模图像识别的潜力。
《深度残差学习用于图像识别》 (Deep Residual Learning for Image Recognition)
论文链接:https://arxiv.org/pdf/1512.03385
该论文提出了深度残差网络(ResNet),用于解决深度网络中的退化问题,在图像识别任务中取得了突破性的性能。
《通过扩张卷积实现多尺度上下文聚合》 (Atrous Convolution for Semantic Image Segmentation)
论文链接:https://arxiv.org/pdf/1511.07122
该论文介绍了扩张卷积(Atrous Convolution),用于图像分割任务中的多尺度上下文聚合,提高了图像分割的性能。
《深度语音2:端到端的英语和普通话语音识别》 (Deep Speech 2: End-to-End English and Mandarin Speech Recognition)
论文链接:https://arxiv.org/pdf/1512.02595
该论文介绍了深度语音2(Deep Speech 2),一种端到端的语音识别系统,能够识别英语和普通话,展示了深度学习在自动语音识别领域的应用。
《变分有损自编码器》 (Variational Disentangled Autoencoders)
论文链接:https://arxiv.org/pdf/1611.02731
该论文介绍了变分有损自编码器(VDAE),这是一种生成模型,能够学习数据的离散表示,在处理高维数据时表现出了良好的性能。
《GPipe: 利用微批次管道并行化大规模神经网络》 (GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism)
论文链接:https://arxiv.org/pdf/1811.06965
该论文介绍了 GPipe,一个模型并行库,允许通过微批次管道并行化来扩展大型神经网络的容量,在图像分类和多语言机器翻译任务上展示了其应用。
《深度残差网络中的恒等映射》 (Identity Mappings in Deep Residual Networks)
论文链接:https://arxiv.org/pdf/1603.05027
该论文探讨了在深度残差网络中使用恒等映射的好处,尤其是在训练非常深的网络时,有助于梯度的流动,提高网络的训练效率。
《机器超级智能》 (Machine Super Intelligence)
文档链接:
https://www.vetta.org/documents/Machine_Super_Intelligence.pdf
该文档探讨了机器超级智能(MSI)的概念和潜在影响,讨论了人工智能发展的未来趋势和对社会的潜在影响。
《科尔莫哥洛夫复杂性与算法随机性》 (Kolmogorov Complexity and Algorithmic Randomness)
书籍链接:https://www.lirmm.fr/~ashen/kolmbook-eng-scan.pdf
该书籍介绍了 Kolmogorov 复杂性理论及其在算法随机性中的应用,提供了对计算复杂性和随机性深入理解的理论基础。
《用于视觉识别的 CS231n 卷积神经网络》 (Convolutional Neural Networks for Visual Recognition)
课程链接:https://cs231n.github.io/
CS231n是斯坦福大学的一门课程,专注于使用卷积神经网络进行视觉识别,提供了关于CNN架构、训练技巧和最新研究成果的全面介绍。
《量化封闭系统中复杂性的升降:咖啡自动机》 (Quantifying the Complexity of Closed Systems: A Coffee Automaton Example)
论文链接:https://arxiv.org/pdf/1405.6903
该论文探讨了如何量化封闭系统中的复杂性,以咖啡自动机为例进行了说明,研究了复杂性如何随时间增长和减少,并尝试找到潜在的规律。
《神经消息传递在量子化学中的应用》 (SchNet: A Continuous-filter Convolutional Neural Network for Modeling Quantum Interactions)
论文链接:https://arxiv.org/pdf/1704.01212
该论文提出了一种新型的神经网络架构,用于量子化学中的分子性质预测,神经消息传递(Neural Message Passing)提供了一种强大的框架来模拟量子相互作用。
《用于关系推理的简单神经网络模块》 (A Simple, Parameter-free Self-Attention Module for Neural Networks)
论文链接:https://arxiv.org/pdf/1706.01427
该论文提出了一种简单的、无需参数的自注意力模块,用于增强神经网络的关系推理能力,通过聚合来自不同位置的信息来提高网络的性能。
《最小描述长度原则介绍》 (Introduction to the Minimum Description Length Principle)
论文链接:https://arxiv.org/pdf/math/0406077
该论文提供了最小描述长度(MDL)原则的教程介绍,MDL是一种用于模型选择和数据压缩的原则。
————————————————
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/138930615