AI 时代不缺信息。缺的是判断哪些信息值得沉淀的能力。
每天有成千上万的网页可以被阅读、收藏、归档。但你的注意力是有限的,你的记忆容量是有限的,你的长期档案不应该变成一个无限膨胀的仓库。
这个问题不是技术性的——它关乎curation。
AI 时代不缺信息。缺的是判断哪些信息值得沉淀的能力。
每天有成千上万的网页可以被阅读、收藏、归档。但你的注意力是有限的,你的记忆容量是有限的,你的长期档案不应该变成一个无限膨胀的仓库。
这个问题不是技术性的——它关乎curation。
当你看到一个有趣的链接,第一反应是收藏。第二反应是稍后阅读。第三反应是——忘记。
几周后,你的收藏夹里有几百条未读链接。你不知道哪些是真正重要的,哪些是随手点的。你甚至不记得为什么收藏了其中大部分。
更隐蔽的问题是:有些网页在抓取时已经损坏了。反爬机制返回了错误页面,正文被截断了,或者你抓到的只是导航页而非真实内容。如果你不检查,这些损坏的副本会安静地躺在你的档案里,占用空间,污染检索。
你需要的不只是一个抓取工具。你需要一套质量判断的框架。
这个框架不追求"抓取所有链接"。它追求"识别哪些链接值得进入长期档案"。
评估围绕四个维度展开:
可读性 — 正文是否完整提取?格式是否混乱?是否被广告或无关内容淹没?
完整性 — 抓到的内容是否是真实正文,还是目录页、登录墙、错误提示、反爬拦截?
来源质量 — 来源是否可信?是否有明确的作者和日期?是否是原始出处而非转载?
长期价值 — 这篇文章半年后还有阅读价值吗?它提供了可复用的知识,还是只是时效性新闻?
系统使用三层信号来判断一篇网页的命运:
这些信号不是评分,而是描述。描述比评分更有价值,因为描述保留了上下文,而评分丢失了细节。
根据信号组合,每篇网页有四种可能的命运:
系统可以自动检测抓取状态、标记疑似问题、生成质量信号。但它不能替你决定一篇网页是否值得进入你的长期知识库。
这个决定涉及你的阅读品味、你的研究兴趣、你对信息密度的容忍度——这些是个人的,不是通用的。
因此,流程是:脚本做初筛,把人从重复劳动中解放出来;人做最终判断,决定什么值得记住、什么值得忘记。
忘记和记住一样重要。一个只进不出的档案不是记忆,是囤积。
当前状态:本地运行中
URL 质量评估框架已在本地阅读归档流程中稳定运行。本页面为方法论公开版本,不展示任何私人阅读清单或具体网页内容。
所有评估在本地设备上完成,数据不离开本机。
⚗ 隐私边界
本页面仅展示评估方法论。所有私人阅读记录、URL 清单、阅读笔记均存储于本地设备。公开内容已做完全脱敏处理。