Academic Writing Lab
CWMT 2014 原始演示稿 · 扩展学习页

学术论文写作方法和技巧

以刘洋《机器翻译学术论文写作方法和技巧》为主线,把“方向、问题、思路、方法、实验、论文”扩展成一套适用于 AI / NLP / LLM / Agent 研究的写作系统。

244 页原始演示稿内容
6 步从研究生成到论文发表
10 模块从选题到英文写作与反馈
1 原则全心全意为读者服务

一、页面诊断:为什么要扩展?

上一版页面已经有基本框架,但更像概要卡片;这一版补齐演示稿脉络、论文各部件、可复制模板和 AI 时代补充。

Before

内容偏概览

上一版说明了六步流程和读者优先,但缺少对标题、摘要、引言、图表、相关工作、英文写作等部分的细拆。

After

补成方法手册

现在增加“演示稿逐章主线”“审稿人 5 分钟阅读路径”“论文部件拆解”“可复制写作模板”。

Use

可直接用于写作

不只是看懂演示稿,还能用来设计论文、改项目报告、写技术博客、给 agent 下论文写作任务。

二、论文发表流程:研究如何长成论文

原演示稿把论文发表流程拆成六步。它提醒我们:论文写作不是最后的润色,而是研究结构的外化。

01

确定方向

选择大领域。判断领域势能、问题密度、共同体关注度与个人长期兴趣。

02

确定问题

把宽泛方向压缩成一个可比较、可实验、可被审稿人理解的挑战。

03

确定思路

提出核心洞察。好思路不是复杂,而是抓住现有方法失败的关键原因。

04

确定方法

把思路落成算法、系统、规则、模型结构或工作流,并能用例子讲清。

05

实验验证

标准数据、强 baseline、主辅实验、消融、显著性、错误分析共同构成证据链。

06

撰写论文

按读者理解路径重排材料,让贡献、挑战、证据、边界被快速看见。

双轨理解:研究轨与读者轨

研究轨:我做了什么?为什么这样做?结果怎么样?这条轨道服务作者自己梳理工作。
读者轨:读者先需要知道什么?什么信息最容易理解?哪一个证据最能说服他?论文最终要按这条轨道重写。

三、演示稿主线:从 244 页里抽出 10 个模块

这一页不逐页复刻,而是按“研究—写作—审稿—表达”的结构重组原演示稿。

Module 01

发表流程

方向、问题、思路、方法、实验、论文。核心是让研究从模糊兴趣变成可发表主张。

Module 02

选择方向

热门与冷门都不是绝对答案。真正好的方向是重要、有兴趣、即将变热且有风险。

Module 03

解决问题

先独立思考,再用文献互证;方法要有语言学意义、数学意义,并保持简单干净。

Module 04

审稿现实

审稿人很忙,不一定是完全专家。题目、摘要、Introduction、图表和主结果决定第一印象。

Module 05

读者服务

深入浅出、引人入胜、降低理解难度。论文不是自我证明,而是向读者传递信息。

Module 06

标题与摘要

标题负责被发现,摘要负责被继续阅读。二者都要服务“一句话贡献”。

Module 07

介绍与段落

Introduction 要讲清问题、挑战、你的缓解方式;段落要有中心句、支撑句、衔接句。

Module 08

方法与实验

方法先 running example 再形式化;实验先辅后主,用标准数据和强 baseline 证明主张。

Module 09

图表与相关工作

图表最好能独立讲清信息;相关工作不是罗列,而是为读者建立领域地图。

Module 10

英文写作与反馈

避免长句、松散、口语化、被动堆积;提前一个月写,多轮修改,听取不同背景读者反馈。

四、选题的智慧:不要只追热点,也不要为了冷门而冷门

原演示稿中“选择热门方向 / 选择冷门方向”的对比,最终落到“选择的智慧”。

四个判断信号

重要问题

它是否是领域中反复出现、影响多个任务的核心困难?

自己感兴趣

你是否愿意在低反馈、反复失败、难以解释时继续投入?

即将变热

它是否有成为下一阶段共同体关注焦点的迹象?

高风险性

它是否有足够不确定性,从而给原创性留下空间?

选题矩阵

热门 × 低差异

容易找到 baseline,但很难讲出独特贡献。

冷门 × 低价值

竞争少,但读者可能不关心。

热门 × 高差异

适合快速发表,但需要强证据和清晰定位。

未来热点 × 高价值

最好的一类题目:现在还未拥挤,但问题足够重要。

五、解决问题:像外行一样思考,像内行一样实践

原演示稿强调:先思考,再查文献相互印证;数学只是形式化工具,不是装饰。

思维独立性

先从问题本身出发形成直觉,再回到文献校准。不要一开始就被已有术语和套路限制。

语言学 / 领域意义

方法要符合任务背后的领域直觉。NLP 论文不是只调参数,也要解释为什么这个结构符合语言现象。

数学意义

公式用于精确表达直觉,不用于制造神秘感。每个符号都应该可追踪、可解释、不冲突。

简洁优美

好方法常常是简单、干净、优美的。复杂度应来自问题,而不是表达者的炫技。

可讲述

如果一个方法不能用例子讲清楚,很可能是方法没想清,或者论文组织顺序有问题。

可验证

每一个核心主张都要能对应一个实验、一个消融、一个图表或一个错误分析。

六、审稿人的 5 分钟路径

现实中,审稿人不会先替你慢慢解谜。他通常会快速形成第一判断,再决定是否深入阅读。

题目

判断领域、任务、方法关键词,以及这篇论文是否与自己审稿范围相关。

摘要

寻找问题、缺口、方法、结果。摘要含混会让后续阅读带着怀疑进入。

Introduction

判断问题是否重要,现有方法是否真的有挑战,你的方法是否正对挑战。

图 1 / 方法图 / Running Example

看你是否能用低成本方式讲清核心思想。如果图看不懂,公式更难救回来。

主实验表

看 baseline 是否强、提升是否稳定、是否有显著性、消融和错误分析。

Related Work 与限制

判断你是否理解领域地图,是否诚实说明边界,而不是只强调自己最好。

七、全心全意为读者服务:降低理解难度是关键

这是原演示稿最值得反复记住的一条原则:论文质量不仅是思想质量,也是信息组织质量。

作者中心

按我做实验的顺序写;我觉得重要的都塞进去;我知道这些术语,所以可以直接用;公式越多越严谨。

读者中心

先告诉读者为什么这个问题重要;再用例子建立直觉;再给方法和实验;所有细节都服务中心贡献。

把“我的工作过程”重排成“读者的理解路径”
信息元素的认知成本

图和例子负责建立直觉;曲线和表负责承载证据;正文负责组织逻辑;公式和算法负责精确定义。越难的信息元素,越需要前面有低成本铺垫。

曲线正文公式算法证明

八、论文部件:每一节都要承担明确任务

下面把原演示稿中的标题、摘要、介绍、方法、实验、相关工作、附录、英文写作等建议扩展成操作指南。

标题:让人愿意点开,也能被搜索到

标题要压缩中心贡献,包含任务、方法或关键概念。不要太文学化,也不要只剩缩写。

检查别人只看标题,能否知道你解决什么问题?
优化用领域关键词提高可检索性,用动词或名词短语突出贡献。

摘要:四句话建立第一判断

摘要不是小号论文,而是一个压缩的说服结构:问题、缺口、方法、结果。

不要堆术语、堆数学符号、塞进所有实验细节。
让非完全专家也能在 30 秒内判断这篇论文的价值。

Introduction:从“问题”走到“本文位置”

普通逻辑是:问题是什么、前人做了什么、我们做了什么。更好的逻辑是:问题是什么、当前最好工作面临什么挑战、我们的方法如何缓解这个挑战。

CARS建立领域 → 建立缺口 → 占据缺口。
贡献列表每条贡献最好都能对应后文一个方法或实验。

段落:中心句、支撑句、衔接句

每段只做一件事。中心句给论断,支撑句给证据,段尾衔接下一段。

问题一段里同时讲背景、方法、结果,会让读者失去主线。
改法先写每段小标题,再把小标题改成自然中心句。

方法:先 running example,再通俗语言,最后形式化

不要一上来定义符号。先让读者看到例子里的失败,再看到你的方法如何改变这个例子。

顺序Baseline → Example → Intuition → Modules → Formula → Algorithm。
公式每个公式都要有一句自然语言解释它表达了什么直觉。

实验:不是展示结果,而是构造证据链

主实验回答是否有效;消融回答哪个部分有效;分析实验回答为什么有效;错误分析回答边界在哪里。

最低标准标准数据、强 baseline、公平设置、显著性检验。
更好标准多随机种子、置信区间、成本、失败案例、复现脚本。

图表:caption 要包含充分信息

理想状态是读者只看图和 caption,也能大致理解方法结构和关键结论。

适合解释结构、流程、例子、机制。
适合承载精确对比、消融、数据集和设置信息。

英文写作:清楚优先于华丽

常见问题包括句子过长、被动句式过多、结构松散、口语化、冠词错误、公式后文字缩进和引用格式不统一。

节奏截稿前一个月开始写,每隔两天改一次。
反馈专家看专业问题,非专家发现信息壁垒。

九、国际写作框架:把演示稿放进更大的方法论

这些框架不是替代原演示稿,而是给它的直觉补上通用语言。

CARS:Create A Research Space

Introduction 可以分成三步:建立领域重要性、指出现有研究缺口、说明本文如何进入这个缺口。它和演示稿中的“问题 → 挑战 → 我们的方法缓解挑战”完全对应。

IMRaD:科学论文的标准叙事

Introduction 回答为什么,Methods 回答怎么做,Results 回答发现什么,Discussion 回答意味着什么。刘洋的六步流程则是 IMRaD 的研究生成版。

Reader Expectations:结构决定理解

读者会在句子、段落和章节的特定位置寻找旧信息、新信息和重点。写作不是堆信息,而是按认知预期摆放信息。

Figure-first Writing:先画图,再写文

如果图 1 画不清楚,正文通常也会混乱。先画问题图、方法图、例子图和主结果图,可以倒逼论文主线收束。

Reproducibility:可信论文的底线

今天的 AI 论文需要报告数据、代码、模型版本、硬件、随机种子、prompt、推理参数、运行成本、限制与潜在风险。

十、LLM / Agent 论文的新增要求

2014 年演示稿诞生于统计机器翻译时代。今天写大模型、Agent、多模态系统论文,还要补充这些维度。

Prompt 透明

报告 system prompt、user prompt、few-shot 示例、解码参数、工具调用规则和输出格式约束。

数据污染

说明 benchmark 是否可能被模型见过,是否使用时间切分、新构造测试集或污染检测。

交互轨迹

Agent 系统要给出完整 trace:输入、计划、工具、记忆、失败恢复、最终输出。

成本指标

不仅比较效果,还要比较 token、时延、调用次数、人工标注成本与部署复杂度。

失败案例

展示 hallucination、工具误用、长程任务漂移、评价漏洞和不可控场景。

复现包

尽量提供代码、配置、数据说明、模型版本、环境和最小复现实验。

十一、可直接复用的写作模板

把演示稿的原则变成可复制的写作骨架。适合论文、项目报告、技术博客和 agent 任务书。

一句话贡献

本文研究 [问题]。
现有方法在 [关键挑战] 上仍然不足。
我们提出 [核心思路/方法],通过 [关键机制] 缓解该挑战。
在 [数据/任务] 上,结果显示 [主要发现]。

摘要四句式

1. [问题] 对 [领域/任务] 很重要。
2. 现有方法主要受限于 [挑战]。
3. 本文提出 [方法],其核心是 [直觉]。
4. 在 [实验设置] 中,我们观察到 [结果],说明 [意义]。

Introduction 逻辑

段 1:领域为什么重要。
段 2:当前最好方法解决了什么。
段 3:它们仍面临什么挑战。
段 4:我们的洞察如何缓解挑战。
段 5:贡献列表与实验概览。

方法讲述顺序

先介绍 baseline。
给出 running example。
指出 baseline 在例子中的失败。
用通俗语言解释核心直觉。
拆成模块说明。
最后形式化定义和算法。

实验证据链

RQ1:主结果是否超过强 baseline?
RQ2:每个模块是否真的有贡献?
RQ3:参数变化是否稳定?
RQ4:在哪些样本上失败?
RQ5:成本、速度和复现性如何?

相关工作地图

Existing work can be grouped into [N] lines.
The first line focuses on [...].
The second line addresses [...].
The third line explores [...].
Our work differs by [...].

十二、给本地 Hermes / OpenClaw Agent 的页面生成流程

未来如果把这套方法交给你的本地 agent,可以让它按下面流程工作,避免只堆内容。

1. 提取主线

从 PDF 或演示稿中抽取阶段、原则、例子、图表、结论,形成结构化 outline。

2. 补背景

检索作者、会议、同源演讲、CARS/IMRaD/可复现 checklist 等公开资料。

3. 设计信息架构

先画页面分区:Hero、主线、方法、模板、检查表、来源,再写代码。

4. 生成页面

用单页 HTML/CSS/JS 实现,移动端优先,交互服务理解而不是炫技。

5. 自检与收口

检查链接、可读性、内容厚度、移动端、JSON 入口、GitHub Pages 路径。

6. 推送并报告

commit 后输出人能理解的变更摘要:为什么改、改了什么、当前状态。

十三、交互检查表:一篇论文是否已经“可读、可信、可投”

勾选后会自动计算写作成熟度。也可以用来检查研究型网页或技术报告。

研究主线

读者路径

方法与证据

呈现与复现

资料来源与延伸阅读

本页是非官方学习型整理,主线来自刘洋演示稿,并补充公开写作框架与可复现规范。

刘洋《机器翻译学术论文写作方法和技巧》

第十届全国机器翻译研讨会,中国澳门,2014 年 11 月。原始 244 页演示稿。

打开 PDF

刘洋《如何撰写高质量科技论文》

2021 北京智源大会青源学术年会,同源主题的升级版演讲与整理。

打开 AIR 页面

Swales CARS Model

Introduction 的经典修辞模型:建立领域、建立缺口、占据缺口。

打开 Purdue OWL

Gopen & Swan:The Science of Scientific Writing

以读者预期解释科学写作为什么难懂,以及如何通过结构降低理解成本。

打开 American Scientist

Ten Simple Rules 系列

PLOS Computational Biology 关于论文结构、文献综述和图表设计的实用写作规则。

打开论文结构规则

NeurIPS / ACL 可复现检查表

面向机器学习与 NLP 论文的复现、透明度、伦理和实验报告要求。

NeurIPS Checklist · ACL Checklist