旋转位置编码数学公式

苏剑林:
AI架构师的
数学之路

从广东小村庄到AI研究前沿,旋转位置编码(RoPE)发明者的学术传记

1993
出生年份
广东云浮
2008
博客创立
科学空间
RoPE
核心发明
旋转位置编码
2025
年度新知答主
知乎大会

概述

苏剑林是一位在人工智能领域,特别是自然语言处理(NLP)方向有显著贡献的研究者和博主。他以其深厚的数学功底、对Transformer架构的深刻理解以及提出的旋转位置编码(RoPE)RoFormer模型而闻名。

苏剑林通过其长期运营的博客"科学空间"分享大量高质量的技术文章,对AI技术的普及和发展产生了重要影响。他的研究成果已被广泛应用于各类大型语言模型中,如LLaMA、EleutherAI的GPT模型以及Google的FLASH模型等。 [12] [13]

早年生活与教育背景

童年与成长环境

苏剑林于1993年出生于中国广东省云浮市的一个小村庄 [4] [6]。 从小就对科学抱有浓厚的兴趣,尤其在数学方面展现出过人的天赋。进入初中后,他对化学也产生了浓厚的兴趣,并将其视为自己的强项之一。

根据他在"科学空间"博客中的自述,他在2006年9月开始接触电脑,并于2007年1月开始接触网络,这标志着他与计算机科学的初步结缘 [138]

关键时间节点

首次接触电脑 2006年9月
首次上网 2007年1月
接触BBS 2007年4月
重拾科学兴趣 2008年9月

本科与硕士求学经历

华南师范大学数学科学学院

数学专业本科

苏剑林进入华南师范大学数学科学学院攻读数学专业本科 [15]。 在大学期间,他继续保持着对数学的热爱,并打下了坚实的数学基础。

中山大学数学学院

基础数学专业研究生

本科毕业后,他考入中山大学数学学院,攻读基础数学专业的研究生,研究方向为生物应用数学 [4]。 尽管专业方向是基础数学,但他对计算机科学和人工智能领域抱有极大的热情。

机器学习转向

2018年 - 研究生二年级

在研究生二年级时,尽管专业是基础数学,但他将大量时间投入到机器学习,特别是自然语言处理(NLP)相关领域的学习和研究中 [53]

职业生涯发展

追一科技时期

机器学习算法工程师

2019年7月 - 2019年末

2019年7月,苏剑林从中山大学数学学院硕士毕业后,正式加入追一科技(Zhuiyi Technology),在公司的机器学习算法部门工作 [4] [24]。 追一科技是一家专注于自然语言处理(NLP)和人工智能技术研发的公司。

在追一科技工作期间,苏剑林主要从事与机器学习算法相关的研究和开发工作,特别是在自然语言处理领域积累了丰富的实践经验。他在公司内部被视为技术骨干,并在此期间积累了一些专利 [3]

月之暗面(Moonshot AI)

研究员

2020年 - 至今

在离开追一科技后,苏剑林加入了月之暗面(Moonshot AI),这是一家专注于大模型研发的人工智能初创公司 [122]。 他在月之暗面担任研究员,继续其在人工智能领域,特别是大语言模型方面的研究工作。

苏剑林在知乎等平台上持续活跃,以其深厚的数学和物理功底,从独特的视角解构技术课题,分享他在大模型领域的研究心得。在2025年知乎第十一届新知青年大会上,苏剑林因其在AI领域的专业贡献和社区影响力,被评为年度新知答主 [118] [119]

学术成就与贡献

主要学术成就概览

成就/贡献 描述 关键特性/影响
旋转位置编码 (RoPE)
一种创新的位置编码方法,通过绝对位置编码实现相对位置编码的效果。 理论优雅,实践性能优越,尤其在长文本外推性方面表现良好;是唯一可用于线性Attention的相对位置编码方案。 [39]
RoFormer 模型
基于RoPE的预训练Transformer模型。 在处理长文本任务时展现出良好的外推性能,验证了RoPE的有效性。后续推出RoFormerV2探索自然语言理解的极限。 [66]
"科学空间"博客
自2008年起运营的个人博客,分享数学、物理、计算机科学、AI等领域的研究和见解。 高质量技术文章,如"Transformer升级之路"、"生成扩散模型漫谈"等系列,影响广泛,成为重要学习和参考资料。
Cool Papers 论文检索网站
利用大型语言模型(如Kimi)的智能问答功能,帮助科研人员高效筛选和阅读学术论文。 提升科研效率,促进学术交流。 [44]

自然语言处理(NLP)领域的研究

SimBERT / SimBERTv2

为中文文本相似度任务建立的基准模型。虽然是"弱监督"模型,但积极探索使用开源标注数据辅助训练,并分享了相关探索过程和"扫雷指南"。 [65]

中文文本相似度基准模型

无监督词库构建

发表关于"无监督构建词库:更快更好的新词发现算法"的研究,解决了新词发现这一NLP基础任务中的难题。 [84]

新词发现算法

旋转位置编码(RoPE)的提出

苏剑林构思并提出了"旋转式位置编码(Rotary Position Embedding, RoPE)" [39] [63]。 RoPE是一种创新的位置编码方法,其核心思想是通过绝对位置编码的方式来实现相对位置编码的效果

技术特点

  • 理论上的优雅性与实践中的优越性能
  • 在处理长文本方面具有良好的外推性
  • 目前唯一一种可以应用于线性Attention的相对位置编码方案

RoPE的关键在于将上下文标记(token)的表示与一个仅与位置相关的旋转矩阵相乘,从而在Attention机制的内积运算中自然地融入相对位置信息。这种设计使得RoPE成为Transformer模型位置编码的重要技术进展。

应用案例

LLaMA系列模型
EleutherAI GPT模型
Google FLASH模型

RoFormer模型及其他贡献

RoFormer模型

在提出旋转位置编码(RoPE)的基础上,苏剑林及其团队进一步开发了名为RoFormer(Rotary Transformer)的预训练模型 [39]。 RoFormer模型的核心改进就是应用了RoPE作为其位置编码方式。

RoFormer模型在处理长文本任务时展现出良好的外推性能,这得益于RoPE能够有效地捕捉序列中的相对位置信息。

其他贡献

  • Cool Papers论文检索网站
    利用Kimi等大型语言模型的智能问答功能,帮助科研人员高效筛选和阅读学术论文 [1]
  • 参与编写技术书籍
    例如《Python数据分析与挖掘实战》,为初学者提供宝贵的学习资源 [103]

社会影响力

"科学空间"博客的运营与影响

科学博客网站界面

科学空间(Scientific Spaces)

2008年9月 - 至今

苏剑林是知名博客"科学空间"(Scientific Spaces)的创始人和主要运营者 [4]。 该博客的网址为 https://kexue.fmhttps://spaces.ac.cn

他从2008年9月开始建立这个博客,旨在记录和分享自己在科学探索过程中的思考和发现。博客内容广泛,涵盖数学、物理、天文、计算机科学、人工智能等多个领域。

博客特色
  • 高质量技术文章,深度解析AI技术
  • 原创性工作如RoPE的详细推导
  • 吸引大量AI从业者和研究者
影响力
  • 成为重要的学习和参考资料
  • 推动RoPE在业界的普及和应用
  • 重要的知识分享和交流社区

对AI技术普及与发展的贡献

技术普及与知识分享

苏剑林通过其博客"科学空间"、技术社区分享以及参与学术活动等多种方式,对人工智能技术的普及与发展做出了显著贡献。他在"科学空间"上持续发表高质量的技术文章,深入解读AI领域的前沿进展。

帮助初学者理解复杂技术原理

为资深研究者提供参考和启发

推动相关技术在中文社区的传播

知乎年度新知答主

2025年知乎第十一届新知青年大会

苏剑林在知乎等平台上以"月之暗面研究员"的身份活跃,从数学和物理的独特视角解构技术课题,分享他对大模型等前沿领域的见解。他的专业分享被知乎官方认为是"记录AI创业创新的宝贵语料",并因此被评为2024年度新知答主 [118] [119]