核查方法论

预测如何被提取分级判定 — 全流程透明说明。

1️⃣ 数据来源

所有预测均来自 YouTuber 公开发布的视频。流程:

  1. 下载频道公开视频音频(仅用于内部转录,不二次分发)
  2. 用 OpenAI Whisper / Groq Whisper 转写为中文文字稿
  3. 由大模型(Anthropic Claude Opus + OpenAI GPT)识别预测语句

所有预测卡片都附带原视频链接。当我们能在原始字幕文件中精确匹配到引用语句时,链接会带跳转时间戳(如 17:53),一键直达原始上下文;未能精确匹配时则只显示视频链接,不展示猜测的时间。

2️⃣ 什么算"预测"

我们只收录满足以下条件的语句:

  • 有明确的时间窗口("年底前"、"三个月内"、"明年 3 月之前" 等)
  • 有可观察的结果(事件是否发生、数字是否达到某阈值、人事是否变动等)
  • 预测性陈述,不是事实回顾或纯粹的情感表达

不收录:

  • 对历史事件的解读或评论
  • 无时间约束的长期判断("中国终将…")
  • 抒情、嘲讽、反问、修辞表达

3️⃣ 预测分级(L1 → L4)

每条预测按大胆程度分为四级:

  • L1 · 趋势顺延:延续当前明显趋势,命中难度低(例:"今年 A 股仍将震荡")
  • L2 · 趋势式:基于既有趋势但有方向性判断(例:"12 个月内 X 行业将持续低迷")
  • L3 · 大胆式:与当前共识有显著偏离,需要具体事件发生(例:"3 个月内某重要会议将延期")
  • L4 · 狂野式:极小概率事件 + 短窗口,命中难度最高(例:"本月内某政权将更迭")

分级保证不同评论员之间的可比性:一个稳健派的 L2 高命中率 ≠ 一个押大胆派的 L4 偶然命中。

4️⃣ 判定流程:四阶段

每条候选预测需通过四阶段才会公开发布:

  1. 提取(Opus):Claude Opus 从文字稿中识别候选预测
  2. 复核(Opus):Claude Opus 二次审阅,剔除不符合"预测"定义的候选
  3. 对手审(GPT):OpenAI GPT 从对立模型视角再次审阅,质疑提取结果
  4. 严格共识:只有两个模型都判同一结果的条目才会发布;分歧条目进入人工复核

这套流程的设计目的是降低单一模型偏见 — 一个模型的幻觉或漏判,会被另一个模型纠正。

5️⃣ 判定标签

  • 🎯 应验:预测的事件在窗口内发生,符合所有限定条件
  • 🌗 半应验:方向对,但程度或时间略有偏差
  • 💥 翻车:窗口已过,预测的事件未发生 / 反向发生
  • 🔮 待观察:窗口尚未到期
  • 难以核实:缺乏公开可验证的信息,无法做出明确判定

"翻车"是对预测内容的判定,不是对预测人的评价。

⚠️ 已知局限

我们尽力做到客观,但承认以下局限:

  • 语音转写可能存在错误,特别是专有名词与口音差异
  • 大模型对"预测语义"的判断有边界 — 修辞性表达可能被误判为预测,反之亦然
  • 核查所依赖的公开信息源本身可能有偏差
  • 样本覆盖随时间扩展,早期数据集体量较小

所有这些局限都是可申请纠错的。详见 📮 纠错与联系

🔗 更多