[译] AI 学习法典

作者 Leehyon HNG | 7526 字, 16 分钟 | 0 评论 | 2024-08-25 | 栏目 notes

llm, reading, transformer, translation

本文档为一份详尽的 AI 学习资源指南,原英文由 a16z 整理。

Original: https://a16z.com/ai-canon/


人工智能研究正以指数级速度增长。对于 AI 专家而言,跟上所有新发表的内容已非易事,而初学者更是难以知晓从何着手。

因此,在本文中,我们分享一份精选的资源清单,这些资源帮助我们更深入地了解现代 AI。我们称之为"AI 法典",因为这些论文、博文、课程和指南在过去几年对领域产生了巨大的影响。

我们首先介绍 transformerlatent diffusion 模型(它们是当前 AI 浪潮的推动力)的入门知识。然后,我们将深入探讨技术学习资源;使用大型语言模型(LLM)构建的实践指南;以及 AI 市场分析。最后,我们提供一份里程碑研究成果的参考列表,从 “Attention is All You Need” 开始——这是 Google 2017 年发表的论文,它向世界介绍了 transformer 模型,开启了生成式 AI 时代。

入门介绍……

这些文章不需要任何专业背景知识,可以帮助你快速了解现代 AI 浪潮中最重要的部分。

  • Software 2.0:Andrej Karpathy 是最早清晰解释(早在 2017 年!)新一轮 AI 浪潮为何如此重要的人之一。他的观点是,AI 是一种编程计算机的新方式且功能强大。随着 LLM 的快速发展,这一论断已被证明具有先见之明为了解 AI 市场可能如何发展提供了一个很好的心智模型。
  • State of GPT:同样来自 Karpathy,这是对 ChatGPT / GPT 模型总体工作原理、如何使用它们以及 R&D 可能走向何方的非常易懂的解释。
  • What is ChatGPT doing … and why does it work?:计算机科学家和企业家 Stephen Wolfram 从基本原理出发,对现代 AI 模型的工作原理进行了深入但极具可读性的解释。他追溯了从早期神经网络到今天的 LLM 和 ChatGPT 的时间线。
  • Transformers, explained:Dale Markowitz 的这篇文章更简短、更直接地回答了"什么是 LLM,它是如何工作的?“这个问题。这是逐步了解该主题并培养对技术直觉的好方法。文章写于 GPT-3 时期,但仍适用于更新的模型。
  • How Stable Diffusion works:这是上一篇文章的计算机视觉类比。Chris McCormick 通俗地解释了 Stable Diffusion 的工作原理,并培养对文本到图像模型的直觉。对于一个更温和的入门介绍,请查看 r/StableDiffusion 的这个漫画

基础学习:神经网络、反向传播和嵌入

这些资源提供了对机器学习和 AI 基础概念的基座理解,从深度学习基础知识到 AI 专家的大学课程。

解读文章

课程

  • Stanford CS229:吴恩达(Andrew Ng)的机器学习导论,涵盖机器学习基础知识。
  • Stanford CS224N:Chris Manning 的深度学习自然语言处理,涵盖从第一代 LLM 到 NLP 基础知识。

技术深潜:理解 transformer 和大型模型

有无数资源试图解释 LLM 的工作原理。以下是我们最喜欢的一些,针对广泛的读者/观众。

解读文章

课程

  • Stanford CS25:Transformers United,一个关于 Transformers 的在线研讨会。
  • Stanford CS324:Percy Liang、Tatsu Hashimoto 和 Chris Re 的大型语言模型,涵盖 LLM 的广泛技术和非技术方面。

参考和评论

  • Predictive learning, NIPS 2016:在这场早期演讲中,Yann LeCun 为无监督学习作为大规模 AI 模型架构的关键元素提出了有力论据。跳转到 19:20 查看著名的蛋糕类比,它仍然是现代 AI 最好的心智模型之一。
  • AI for full-self driving at Tesla:另一个经典的 Karpathy 演讲,这次涵盖特斯拉的数据收集引擎。从 8:35 开始是一段关于 AI 的伟大演讲,解释了为什么长尾问题(在这种情况下是停车标志检测)如此困难。
  • The scaling hypothesis:LLM 最令人惊讶的方面之一是扩展(添加更多数据和计算)不断提高准确性。GPT-3 是第一个清晰展示这一点的模型,Gwern 的文章很好地解释了背后的直觉。
  • Chinchilla’s wild implications:表面上是对重要的 Chinchilla 论文(见下文)的解释,但这篇文章触及了 LLM 扩展的核心问题:我们是否正在耗尽数据?它建立在上述文章的基础上,提供了对扩展定律的刷新视角。
  • A survey of large language models:对当前 LLM 的综合分解,包括开发时间线、规模、训练策略、训练数据、硬件等。
  • Sparks of artificial general intelligence: Early experiments with GPT-4:微软研究院关于 GPT-4(当前最先进的 LLM)能力相对于人类智能的早期分析。
  • The AI revolution: How Auto-GPT unleashes a new era of automation and creativity:Auto-GPT 和 AI 代理的入门介绍。这项技术还处于早期阶段,但很重要——它使用互联网访问和自生成的子任务来解决特定的复杂问题或目标。
  • The Waluigi Effect:表面上是对 “Waluigi 效应”(即为什么 LLM 行为中会出现"另一个自我”)的解释,但有趣的主要是对 LLM 提示理论的深度探讨。

使用 LLM 构建的实践指南

一个新的应用堆栈正在以 LLM 为核心兴起。虽然关于这个主题没有很多正式的教育资源,但我们挑选了一些最有用的资源。

参考

  • Build a GitHub support bot with GPT3, LangChain, and Python:现代 LLM 应用堆栈最早的公开解释之一。其中的一些建议已经过时,但在许多方面,它推动了新 AI 应用的广泛采用和实验。
  • Building LLM applications for production:Chip Huyen 讨论了构建 LLM 应用中的许多关键挑战、如何解决它们,以及什么样的用例最有意义。
  • Prompt Engineering Guide:对于编写 LLM 提示的任何人这是最全面的指南,为一些流行的模型提供了具体示例。对于更轻松、更对话性的处理,请尝试 Brex 的提示工程指南
  • Prompt injection: What’s the worst that can happen? 提示注入是 LLM 应用中潜伏的一个潜在严重安全漏洞,目前还没有完美的解决方案。Simon Willison 在这篇文章中给出了对这个问题的权威描述。Simon 关于 AI 的几乎所有内容都很出色。
  • OpenAI cookbook:对于开发者来说,这是使用 OpenAI API 的权威指南和代码示例集合。它随着新的代码示例不断更新。
  • Pinecone learning center:许多 LLM 应用基于向量搜索范式。Pinecone 的学习中心(尽管是品牌化的供应商内容)提供了关于如何构建这种模式的一些最有用的指导。
  • LangChain docs:作为 LLM 应用的默认编排层,LangChain 连接到堆栈中几乎所有其他部分。因此,他们的文档是整个堆栈及其各部分如何组合在一起的真正参考。

课程

  • LLM Bootcamp:Charles Frye、Sergey Karayev 和 Josh Tobin 构建基于 LLM 的应用的实践课程。
  • Hugging Face Transformers:在 Hugging Face transformers 库中使用开源 LLM 的指南。

LLM 基准测试

  • Chatbot Arena:由加州大学伯克利分校团队领导的流行 LLM 的 Elo 式排名系统。用户还可以通过头对头比较模型参与。
  • Open LLM Leaderboard:Hugging Face 的排名,通过一组标准基准和任务比较开源 LLM。

市场分析

我们都惊叹于生成式 AI 能产生什么,但关于"这一切意味着什么"仍有很多问题。哪些产品和公司将存活并茁壮成长?艺术家会怎样?公司应该如何使用它?它将如何真正影响就业和社会?以下是一些回答这些问题尝试。

a16z 思考

其他观点

里程碑研究成果

我们今天看到的绝大多数出色的 AI 产品都源于同样出色的研究,这些研究来自大型公司和顶尖大学的专家。最近,我们也看到了个人和开源社区令人印象深刻的工作,将流行项目带入新方向,例如创建自动化代理或将模型移植到更小的硬件占用空间。

以下是为那些真正想深入研究生成式 AI 的人收集的许多这些论文和项目。

对于研究论文和项目,我们还提供了随附博客文章或网站的链接,这些链接往往在更高层次上解释事物。我们还包括了原始发表年份,以便您可以追踪基础研究的时间线。

大型语言模型

新模型

模型改进(例如微调、检索、注意力)

图像生成模型

代理

其他数据模态

代码生成

视频生成

人类生物学和医疗数据

音频生成

多维图像生成

相关文章