核查方法论
预测如何被提取、分级、判定 — 全流程透明说明。
1️⃣ 数据来源
所有预测均来自 YouTuber 公开发布的视频。流程:
- 下载频道公开视频音频(仅用于内部转录,不二次分发)
- 用 OpenAI Whisper / Groq Whisper 转写为中文文字稿
- 由大模型(Anthropic Claude Opus + OpenAI GPT)识别预测语句
所有预测卡片都附带原视频链接。当我们能在原始字幕文件中精确匹配到引用语句时,链接会带跳转时间戳(如 17:53),一键直达原始上下文;未能精确匹配时则只显示视频链接,不展示猜测的时间。
2️⃣ 什么算"预测"
我们只收录满足以下条件的语句:
- 有明确的时间窗口("年底前"、"三个月内"、"明年 3 月之前" 等)
- 有可观察的结果(事件是否发生、数字是否达到某阈值、人事是否变动等)
- 是预测性陈述,不是事实回顾或纯粹的情感表达
不收录:
- 对历史事件的解读或评论
- 无时间约束的长期判断("中国终将…")
- 抒情、嘲讽、反问、修辞表达
3️⃣ 预测分级(L1 → L4)
每条预测按大胆程度分为四级:
- L1 · 趋势顺延:延续当前明显趋势,命中难度低(例:"今年 A 股仍将震荡")
- L2 · 趋势式:基于既有趋势但有方向性判断(例:"12 个月内 X 行业将持续低迷")
- L3 · 大胆式:与当前共识有显著偏离,需要具体事件发生(例:"3 个月内某重要会议将延期")
- L4 · 狂野式:极小概率事件 + 短窗口,命中难度最高(例:"本月内某政权将更迭")
分级保证不同评论员之间的可比性:一个稳健派的 L2 高命中率 ≠ 一个押大胆派的 L4 偶然命中。
4️⃣ 判定流程:四阶段
每条候选预测需通过四阶段才会公开发布:
- 提取(Opus):Claude Opus 从文字稿中识别候选预测
- 复核(Opus):Claude Opus 二次审阅,剔除不符合"预测"定义的候选
- 对手审(GPT):OpenAI GPT 从对立模型视角再次审阅,质疑提取结果
- 严格共识:只有两个模型都判同一结果的条目才会发布;分歧条目进入人工复核
这套流程的设计目的是降低单一模型偏见 — 一个模型的幻觉或漏判,会被另一个模型纠正。
5️⃣ 判定标签
- 🎯 应验:预测的事件在窗口内发生,符合所有限定条件
- 🌗 半应验:方向对,但程度或时间略有偏差
- 💥 翻车:窗口已过,预测的事件未发生 / 反向发生
- 🔮 待观察:窗口尚未到期
- ❔ 难以核实:缺乏公开可验证的信息,无法做出明确判定
"翻车"是对预测内容的判定,不是对预测人的评价。
⚠️ 已知局限
我们尽力做到客观,但承认以下局限:
- 语音转写可能存在错误,特别是专有名词与口音差异
- 大模型对"预测语义"的判断有边界 — 修辞性表达可能被误判为预测,反之亦然
- 核查所依赖的公开信息源本身可能有偏差
- 样本覆盖随时间扩展,早期数据集体量较小
所有这些局限都是可申请纠错的。详见 📮 纠错与联系。