知名人工智能研究员、畅销书《Python 机器学习》的作者 Sebastian Raschka 最近又写了一本新书 Build a Large Language Model from Scratch !
这本书讲解了从头构建大语言模型的全过程,包括如何创建、训练和调整大语言模型!
Sebastian Raschka 在 GitHub 开源了该书代码库,目前已有 20.9k 的 Star 数。虽然原书尚未出版,但关注度已经超级高了。许多读者和业内人士都想一睹为快。
重磅预告:没错!我们已经拿到这本书的版权!
项目地址:https://github.com/rasbt/LLMs-from-scratch
在 Build a Large Language Model (From Scratch) 这本书中,作者通过简明的文字、直观的图表和具体的实例,逐步揭示了构建大语言模型(LLM)的全过程。
Sebastian Raschka 以深入浅出的方式,从最初的设计和创建,到使用通用语料库进行预训练,直至针对特定任务进行微调,带领读者深刻理解 LLM 的内部工作原理。
对于任何希望在 AI 领域深入发展的学习者来说,这本书无疑是一本不可或缺的参考书籍。
书中具体讲解了如何:
-
规划和编码 LLM 的所有部分;
-
准备适合 LLM 训练的数据集;
-
使用自己的数据微调 LLM;
-
应用指令调整方法来确保 LLM 遵循指令;
-
将预训练权重加载到 LLM 中。
以下为本书目录:
本书评价
Sebastian Raschka @rasbt 所著的 Build a Large Language Model (From Scratch) 对我来说是一份宝贵的资源,它连接了许多点,并激发了无数的“啊哈”时刻。这本书强烈推荐给那些希望了解大语言模型实践经验的人。
——Faisal Alsrheed,AI 研究员
在学习新概念时,如果我能从头开始就自己写代码实现,这会让我在理解和学习知识的过程中更有信心。大多数教程倾向于涵盖高层次的概念,而忽略了一些细节,当你尝试将这些概念转化为代码时,这些细节的缺失就会明显感觉到。这就是为什么我非常欣赏 Sebastian Raschka 博士的最新书籍 Build a Large Language Model (From Scratch) 。
在大多数 LLM 实现倾向于使用高级包(如transformers, timm)的时代,看到通过使用基本的 PyTorch 元素逐步开发 LLM 的核心构建块,真是令人耳目一新。这也让你意识到,一些最先进的 LLM 的核心构建块可以简化为相对简单的概念。
——Roshan Santhosh,Meta 数据科学家
关于作者
Sebastian Raschka 从事机器学习和人工智能研究已有十多年。2022 年,Sebastian 加入了 Lightning AI,目前专注于人工智能和大语言模型(LLM)的研究、开发开源软件以及撰写图书。
在此之前,Sebastian 在威斯康星大学麦迪逊分校统计系担任助理教授,专注于深度学习和机器学习研究。他对教育充满热情,并且以其使用开源软件撰写的机器学习畅销书籍而广为人知。
另一本新书预告
Sebastian Raschka 另一本重磅新书预告!
如果你已经准备好超越基础概念,深入探索机器学习、深度学习和人工智能,那么 Machine Learning Q and AI 的问答形式将为你提供快速而简便的学习方式,无需过多纠结。
这本书是作者 Sebastian Raschka 根据自己经常被问到的问题编写而成的。直接、务实的回答方式使得一些高级主题更加易于接近,真正做到引人入胜。每一章简短而独立,围绕一个人工智能的基本问题进行探讨,用清晰的解释、图表和实践来解开它。
内容包括:
-
重点章节:简洁回答了有关 AI 中读者关注的关键问题,将复杂的概念分解成易于消化的内容。
-
主题范围广:从神经网络架构和模型评估到计算机视觉和自然语言处理的诸多主题。
-
实际应用:学习提高模型性能、微调大语言模型等技术。
你还将探索如何:
-
管理神经网络训练中各种随机性的来源。
-
区分大语言模型中的编码器和解码器架构。
-
通过数据和模型修改减少过拟合。
-
为分类器构建信心区间,并通过有限的标记数据优化模型。
-
选择不同的多 GPU 训练范式和不同类型的生成式 AI 模型。
-
理解自然语言处理的性能指标。
-
理解视觉变换器中的归纳偏差。
如果你一直在寻找完美的资源来提升你对机器学习的理解,这本书将使你轻松地将知识提升到超越基础的水平。
怎么样,这两本书是不是一整个期待住了!我们会马不停蹄,争取在原版出版后尽快跟大家见面。图书具体的出版时间,还请大家关注后续的图灵书讯哦~
文章评论