CWMT 2014 原始演示稿 · 扩展学习页

学术论文写作方法和技巧

以刘洋《机器翻译学术论文写作方法和技巧》为主线，把“方向、问题、思路、方法、实验、论文”扩展成一套适用于 AI / NLP / LLM / Agent 研究的写作系统。

看演示稿主线使用写作模板打开检查表

244 页原始演示稿内容

6 步从研究生成到论文发表

10 模块从选题到英文写作与反馈

1 原则全心全意为读者服务

一、页面诊断：为什么要扩展？

上一版页面已经有基本框架，但更像概要卡片；这一版补齐演示稿脉络、论文各部件、可复制模板和 AI 时代补充。

Before

内容偏概览

上一版说明了六步流程和读者优先，但缺少对标题、摘要、引言、图表、相关工作、英文写作等部分的细拆。

After

补成方法手册

现在增加“演示稿逐章主线”“审稿人 5 分钟阅读路径”“论文部件拆解”“可复制写作模板”。

Use

可直接用于写作

不只是看懂演示稿，还能用来设计论文、改项目报告、写技术博客、给 agent 下论文写作任务。

二、论文发表流程：研究如何长成论文

原演示稿把论文发表流程拆成六步。它提醒我们：论文写作不是最后的润色，而是研究结构的外化。

确定方向

选择大领域。判断领域势能、问题密度、共同体关注度与个人长期兴趣。

确定问题

把宽泛方向压缩成一个可比较、可实验、可被审稿人理解的挑战。

确定思路

提出核心洞察。好思路不是复杂，而是抓住现有方法失败的关键原因。

确定方法

把思路落成算法、系统、规则、模型结构或工作流，并能用例子讲清。

实验验证

标准数据、强 baseline、主辅实验、消融、显著性、错误分析共同构成证据链。

撰写论文

按读者理解路径重排材料，让贡献、挑战、证据、边界被快速看见。

双轨理解：研究轨与读者轨

研究轨：我做了什么？为什么这样做？结果怎么样？这条轨道服务作者自己梳理工作。

读者轨：读者先需要知道什么？什么信息最容易理解？哪一个证据最能说服他？论文最终要按这条轨道重写。

三、演示稿主线：从 244 页里抽出 10 个模块

这一页不逐页复刻，而是按“研究—写作—审稿—表达”的结构重组原演示稿。

Module 01

发表流程

方向、问题、思路、方法、实验、论文。核心是让研究从模糊兴趣变成可发表主张。

Module 02

选择方向

热门与冷门都不是绝对答案。真正好的方向是重要、有兴趣、即将变热且有风险。

Module 03

解决问题

先独立思考，再用文献互证；方法要有语言学意义、数学意义，并保持简单干净。

Module 04

审稿现实

审稿人很忙，不一定是完全专家。题目、摘要、Introduction、图表和主结果决定第一印象。

Module 05

读者服务

深入浅出、引人入胜、降低理解难度。论文不是自我证明，而是向读者传递信息。

Module 06

标题与摘要

标题负责被发现，摘要负责被继续阅读。二者都要服务“一句话贡献”。

Module 07

介绍与段落

Introduction 要讲清问题、挑战、你的缓解方式；段落要有中心句、支撑句、衔接句。

Module 08

方法与实验

方法先 running example 再形式化；实验先辅后主，用标准数据和强 baseline 证明主张。

Module 09

图表与相关工作

图表最好能独立讲清信息；相关工作不是罗列，而是为读者建立领域地图。

Module 10

英文写作与反馈

避免长句、松散、口语化、被动堆积；提前一个月写，多轮修改，听取不同背景读者反馈。

四、选题的智慧：不要只追热点，也不要为了冷门而冷门

原演示稿中“选择热门方向 / 选择冷门方向”的对比，最终落到“选择的智慧”。

四个判断信号

重要问题

它是否是领域中反复出现、影响多个任务的核心困难？

自己感兴趣

你是否愿意在低反馈、反复失败、难以解释时继续投入？

即将变热

它是否有成为下一阶段共同体关注焦点的迹象？

高风险性

它是否有足够不确定性，从而给原创性留下空间？

选题矩阵

热门 × 低差异

容易找到 baseline，但很难讲出独特贡献。

冷门 × 低价值

竞争少，但读者可能不关心。

热门 × 高差异

适合快速发表，但需要强证据和清晰定位。

未来热点 × 高价值

最好的一类题目：现在还未拥挤，但问题足够重要。

五、解决问题：像外行一样思考，像内行一样实践

原演示稿强调：先思考，再查文献相互印证；数学只是形式化工具，不是装饰。

思维独立性

先从问题本身出发形成直觉，再回到文献校准。不要一开始就被已有术语和套路限制。

语言学 / 领域意义

方法要符合任务背后的领域直觉。NLP 论文不是只调参数，也要解释为什么这个结构符合语言现象。

数学意义

公式用于精确表达直觉，不用于制造神秘感。每个符号都应该可追踪、可解释、不冲突。

简洁优美

好方法常常是简单、干净、优美的。复杂度应来自问题，而不是表达者的炫技。

可讲述

如果一个方法不能用例子讲清楚，很可能是方法没想清，或者论文组织顺序有问题。

可验证

每一个核心主张都要能对应一个实验、一个消融、一个图表或一个错误分析。

六、审稿人的 5 分钟路径

现实中，审稿人不会先替你慢慢解谜。他通常会快速形成第一判断，再决定是否深入阅读。

题目

判断领域、任务、方法关键词，以及这篇论文是否与自己审稿范围相关。

摘要

寻找问题、缺口、方法、结果。摘要含混会让后续阅读带着怀疑进入。

Introduction

判断问题是否重要，现有方法是否真的有挑战，你的方法是否正对挑战。

图 1 / 方法图 / Running Example

看你是否能用低成本方式讲清核心思想。如果图看不懂，公式更难救回来。

主实验表

看 baseline 是否强、提升是否稳定、是否有显著性、消融和错误分析。

Related Work 与限制

判断你是否理解领域地图，是否诚实说明边界，而不是只强调自己最好。

七、全心全意为读者服务：降低理解难度是关键

这是原演示稿最值得反复记住的一条原则：论文质量不仅是思想质量，也是信息组织质量。

作者中心

按我做实验的顺序写；我觉得重要的都塞进去；我知道这些术语，所以可以直接用；公式越多越严谨。

读者中心

先告诉读者为什么这个问题重要；再用例子建立直觉；再给方法和实验；所有细节都服务中心贡献。

把“我的工作过程”重排成“读者的理解路径”

信息元素的认知成本

图和例子负责建立直觉；曲线和表负责承载证据；正文负责组织逻辑；公式和算法负责精确定义。越难的信息元素，越需要前面有低成本铺垫。

图曲线表正文公式算法证明

八、论文部件：每一节都要承担明确任务

下面把原演示稿中的标题、摘要、介绍、方法、实验、相关工作、附录、英文写作等建议扩展成操作指南。

标题：让人愿意点开，也能被搜索到

标题要压缩中心贡献，包含任务、方法或关键概念。不要太文学化，也不要只剩缩写。

检查别人只看标题，能否知道你解决什么问题？

优化用领域关键词提高可检索性，用动词或名词短语突出贡献。

摘要：四句话建立第一判断

摘要不是小号论文，而是一个压缩的说服结构：问题、缺口、方法、结果。

不要堆术语、堆数学符号、塞进所有实验细节。

要让非完全专家也能在 30 秒内判断这篇论文的价值。

Introduction：从“问题”走到“本文位置”

普通逻辑是：问题是什么、前人做了什么、我们做了什么。更好的逻辑是：问题是什么、当前最好工作面临什么挑战、我们的方法如何缓解这个挑战。

CARS建立领域 → 建立缺口 → 占据缺口。

贡献列表每条贡献最好都能对应后文一个方法或实验。

段落：中心句、支撑句、衔接句

每段只做一件事。中心句给论断，支撑句给证据，段尾衔接下一段。

问题一段里同时讲背景、方法、结果，会让读者失去主线。

改法先写每段小标题，再把小标题改成自然中心句。

方法：先 running example，再通俗语言，最后形式化

不要一上来定义符号。先让读者看到例子里的失败，再看到你的方法如何改变这个例子。

顺序Baseline → Example → Intuition → Modules → Formula → Algorithm。

公式每个公式都要有一句自然语言解释它表达了什么直觉。

实验：不是展示结果，而是构造证据链

主实验回答是否有效；消融回答哪个部分有效；分析实验回答为什么有效；错误分析回答边界在哪里。

最低标准标准数据、强 baseline、公平设置、显著性检验。

更好标准多随机种子、置信区间、成本、失败案例、复现脚本。

图表：caption 要包含充分信息

理想状态是读者只看图和 caption，也能大致理解方法结构和关键结论。

图适合解释结构、流程、例子、机制。

表适合承载精确对比、消融、数据集和设置信息。

英文写作：清楚优先于华丽

常见问题包括句子过长、被动句式过多、结构松散、口语化、冠词错误、公式后文字缩进和引用格式不统一。

节奏截稿前一个月开始写，每隔两天改一次。

反馈专家看专业问题，非专家发现信息壁垒。

九、国际写作框架：把演示稿放进更大的方法论

这些框架不是替代原演示稿，而是给它的直觉补上通用语言。

CARS：Create A Research Space

Introduction 可以分成三步：建立领域重要性、指出现有研究缺口、说明本文如何进入这个缺口。它和演示稿中的“问题 → 挑战 → 我们的方法缓解挑战”完全对应。

IMRaD：科学论文的标准叙事

Introduction 回答为什么，Methods 回答怎么做，Results 回答发现什么，Discussion 回答意味着什么。刘洋的六步流程则是 IMRaD 的研究生成版。

Reader Expectations：结构决定理解

读者会在句子、段落和章节的特定位置寻找旧信息、新信息和重点。写作不是堆信息，而是按认知预期摆放信息。

Figure-first Writing：先画图，再写文

如果图 1 画不清楚，正文通常也会混乱。先画问题图、方法图、例子图和主结果图，可以倒逼论文主线收束。

Reproducibility：可信论文的底线

今天的 AI 论文需要报告数据、代码、模型版本、硬件、随机种子、prompt、推理参数、运行成本、限制与潜在风险。

十、LLM / Agent 论文的新增要求

2014 年演示稿诞生于统计机器翻译时代。今天写大模型、Agent、多模态系统论文，还要补充这些维度。

Prompt 透明

报告 system prompt、user prompt、few-shot 示例、解码参数、工具调用规则和输出格式约束。

数据污染

说明 benchmark 是否可能被模型见过，是否使用时间切分、新构造测试集或污染检测。

交互轨迹

Agent 系统要给出完整 trace：输入、计划、工具、记忆、失败恢复、最终输出。

成本指标

不仅比较效果，还要比较 token、时延、调用次数、人工标注成本与部署复杂度。

失败案例

展示 hallucination、工具误用、长程任务漂移、评价漏洞和不可控场景。

复现包

尽量提供代码、配置、数据说明、模型版本、环境和最小复现实验。

十一、可直接复用的写作模板

把演示稿的原则变成可复制的写作骨架。适合论文、项目报告、技术博客和 agent 任务书。

一句话贡献

本文研究 [问题]。
现有方法在 [关键挑战] 上仍然不足。
我们提出 [核心思路/方法]，通过 [关键机制] 缓解该挑战。
在 [数据/任务] 上，结果显示 [主要发现]。

摘要四句式

1. [问题] 对 [领域/任务] 很重要。
2. 现有方法主要受限于 [挑战]。
3. 本文提出 [方法]，其核心是 [直觉]。
4. 在 [实验设置] 中，我们观察到 [结果]，说明 [意义]。

Introduction 逻辑

段 1：领域为什么重要。
段 2：当前最好方法解决了什么。
段 3：它们仍面临什么挑战。
段 4：我们的洞察如何缓解挑战。
段 5：贡献列表与实验概览。

方法讲述顺序

先介绍 baseline。
给出 running example。
指出 baseline 在例子中的失败。
用通俗语言解释核心直觉。
拆成模块说明。
最后形式化定义和算法。

实验证据链

RQ1：主结果是否超过强 baseline？
RQ2：每个模块是否真的有贡献？
RQ3：参数变化是否稳定？
RQ4：在哪些样本上失败？
RQ5：成本、速度和复现性如何？

十二、给本地 Hermes / OpenClaw Agent 的页面生成流程

未来如果把这套方法交给你的本地 agent，可以让它按下面流程工作，避免只堆内容。

1. 提取主线

从 PDF 或演示稿中抽取阶段、原则、例子、图表、结论，形成结构化 outline。

2. 补背景

检索作者、会议、同源演讲、CARS/IMRaD/可复现 checklist 等公开资料。

3. 设计信息架构

先画页面分区：Hero、主线、方法、模板、检查表、来源，再写代码。

4. 生成页面

用单页 HTML/CSS/JS 实现，移动端优先，交互服务理解而不是炫技。

5. 自检与收口

检查链接、可读性、内容厚度、移动端、JSON 入口、GitHub Pages 路径。

6. 推送并报告

commit 后输出人能理解的变更摘要：为什么改、改了什么、当前状态。

资料来源与延伸阅读

本页是非官方学习型整理，主线来自刘洋演示稿，并补充公开写作框架与可复现规范。

刘洋《机器翻译学术论文写作方法和技巧》

第十届全国机器翻译研讨会，中国澳门，2014 年 11 月。原始 244 页演示稿。

打开 PDF

刘洋《如何撰写高质量科技论文》

2021 北京智源大会青源学术年会，同源主题的升级版演讲与整理。

打开 AIR 页面

Swales CARS Model

Introduction 的经典修辞模型：建立领域、建立缺口、占据缺口。

打开 Purdue OWL

Gopen & Swan：The Science of Scientific Writing

以读者预期解释科学写作为什么难懂，以及如何通过结构降低理解成本。

打开 American Scientist

Ten Simple Rules 系列

PLOS Computational Biology 关于论文结构、文献综述和图表设计的实用写作规则。

打开论文结构规则

NeurIPS / ACL 可复现检查表

面向机器学习与 NLP 论文的复现、透明度、伦理和实验报告要求。

NeurIPS Checklist · ACL Checklist