URL Quality / 阅读质量评估

← cd ..

$cat ./url-quality/README.md

AI 时代不缺信息。缺的是判断哪些信息值得沉淀的能力。

每天有成千上万的网页可以被阅读、收藏、归档。但你的注意力是有限的，你的记忆容量是有限的，你的长期档案不应该变成一个无限膨胀的仓库。

这个问题不是技术性的——它关乎curation。

$cat ./problem.md

当你看到一个有趣的链接，第一反应是收藏。第二反应是稍后阅读。第三反应是——忘记。

几周后，你的收藏夹里有几百条未读链接。你不知道哪些是真正重要的，哪些是随手点的。你甚至不记得为什么收藏了其中大部分。

更隐蔽的问题是：有些网页在抓取时已经损坏了。反爬机制返回了错误页面，正文被截断了，或者你抓到的只是导航页而非真实内容。如果你不检查，这些损坏的副本会安静地躺在你的档案里，占用空间，污染检索。

你需要的不只是一个抓取工具。你需要一套质量判断的框架。

$cat ./design.md

这个框架不追求"抓取所有链接"。它追求"识别哪些链接值得进入长期档案"。

评估围绕四个维度展开：

可读性 — 正文是否完整提取？格式是否混乱？是否被广告或无关内容淹没？

完整性 — 抓到的内容是否是真实正文，还是目录页、登录墙、错误提示、反爬拦截？

来源质量 — 来源是否可信？是否有明确的作者和日期？是否是原始出处而非转载？

长期价值 — 这篇文章半年后还有阅读价值吗？它提供了可复用的知识，还是只是时效性新闻？

$cat ./signals.md

系统使用三层信号来判断一篇网页的命运：

这些信号不是评分，而是描述。描述比评分更有价值，因为描述保留了上下文，而评分丢失了细节。

$cat ./outcomes.md

根据信号组合，每篇网页有四种可能的命运：

$cat ./judgment.md

系统可以自动检测抓取状态、标记疑似问题、生成质量信号。但它不能替你决定一篇网页是否值得进入你的长期知识库。

这个决定涉及你的阅读品味、你的研究兴趣、你对信息密度的容忍度——这些是个人的，不是通用的。

因此，流程是：脚本做初筛，把人从重复劳动中解放出来；人做最终判断，决定什么值得记住、什么值得忘记。

忘记和记住一样重要。一个只进不出的档案不是记忆，是囤积。

$cat ./status.md

当前状态：本地运行中

URL 质量评估框架已在本地阅读归档流程中稳定运行。本页面为方法论公开版本，不展示任何私人阅读清单或具体网页内容。

所有评估在本地设备上完成，数据不离开本机。

⚗ 隐私边界