LLM极简科普

编者按:本文内容来自Datawhale《AI第一课》,目标是向普通大众传播AI相关知识。本文是第一稿,太过于偏技术,因此需要重新修改打磨。不过从有编程背景读者的角度看我觉得内容尚可,特记录在此。同时也是便于后面对比最终内容和最初内容的差别,提升自己科普内容创作方面的技巧。

简介

本节主要介绍LLM(Large Language Model,大语言模型)的基础科普。大纲如下:

  • 计算机如何识别文字:Token化+词嵌入(Tokenize+Embedding)
  • 大模型如何学习(训练):下个词预测(Next Token Prediction,NTP)
  • 大模型如何理解文本:多层多头注意力(Multi-Layer+Multi-Head Self-Attention,MHA)
  • 大模型如何处理任务:上下文学习或情境学习(In-Context Learning)
  • 大模型如何生成回复:推理(Inference)

本文涉及到上面提到的重要概念时,会以中文表述,括号内的是对应的英文表达。

More

LLM DataManagement:Weaver

本文记录 Weaver 的数据处理。

Weaver是一个垂直领域(文字创作)的LLM,做的是继续训练,训练上循规蹈矩,没有什么好说的。稍微有一点点特色的是数据这块,对垂直领域可能有一定借鉴意义。

另外有提出一个Constitutional DPO的东西,其实就是利用专家写的规则(原则)合成违反这些规则的负样本。相较而言,遵循这些规则的就是正样本。这其实和数据有点关系,垂直领域往往有不少正样本(比如文字创作领域大家的小说、散文等),但负样本却不好找,所以就违反”好“的规则生成负样本。

More

【Rust与AI】概览和方向

本系列主要介绍Rust与AI的那些天作之合(开源项目),我们会以开源项目代码阅读的方式推进,以Rust为主,同时科普AI相关知识,目的是让更多非算法、非Rust的程序员进一步学习Rust和AI相关知识。当然,很显然地,我们也希望Rust程序员和AI算法工程师能从中有所收获。前者可以关注AI算法的设计和优化,后者可以关注Rust如何助力AI算法。

本篇是系列第一篇,主要介绍Rust和AI各自的特点与发展近况,以及它俩的遇见会碰撞出怎样的火花。我们热爱AI,我们喜欢Rust语言,仅此而已。

More

关于大语言模型的思考

从ChatGPT去年11月底发布到现在差不多一年时间了,短短的一年,整个NLP行业发生了翻天覆地的变化。应用方面,整个AI行业甚至其他行业都受到很大冲击,感觉所有人都在+大模型,都在试图重构产品和服务;研究方面,LLM现在几乎成为所有从业人员研究的热点,各种各样的研究成果层出不穷,让人眼花缭乱,直呼看不过来。

本人作为一名NLP工程师,自然深度参与。从一开始的Prompt技巧,到InstructGPT三阶段训练研究,再到千奇百怪的高效微调、知识编辑,再到各种量化推理、剪枝、小模型实践,再到目前重新思考预训练。这是一个不断深入的过程,也是一个不断学习的过程。从一开始的“我草牛逼”,到“看起来好像不复杂”,再到“咋回事,咋做的,咋这么多坑,咋办”。

本文主要记录一点当下最新的思考,包括算法和行业两个方面。我会尽量让自己的观点鲜明,不模棱两可。另外,我们也不是搞预测,只是纯粹的分析和感悟,甚至有一些个人偏好。总的来说,都是个人观点,限于能力,不一定准确(很有可能有错误),希望能借此和同好一起讨论。

More