核查方法论

预测如何被提取、分级、判定 — 全流程透明说明。

1️⃣ 数据来源

所有预测均来自 YouTuber 公开发布的视频。流程：

下载频道公开视频音频（仅用于内部转录，不二次分发）
用 OpenAI Whisper / Groq Whisper 转写为中文文字稿
由大模型（Anthropic Claude Opus + OpenAI GPT）识别预测语句

所有预测卡片都附带原视频链接。当我们能在原始字幕文件中精确匹配到引用语句时，链接会带跳转时间戳（如 17:53），一键直达原始上下文；未能精确匹配时则只显示视频链接，不展示猜测的时间。

2️⃣ 什么算"预测"

我们只收录满足以下条件的语句：

有明确的时间窗口（"年底前"、"三个月内"、"明年 3 月之前" 等）
有可观察的结果（事件是否发生、数字是否达到某阈值、人事是否变动等）
是预测性陈述，不是事实回顾或纯粹的情感表达

不收录：

对历史事件的解读或评论
无时间约束的长期判断（"中国终将…"）
抒情、嘲讽、反问、修辞表达

3️⃣ 预测分级（L1 → L4）

每条预测按大胆程度分为四级：

L1 · 趋势顺延：延续当前明显趋势，命中难度低（例："今年 A 股仍将震荡"）
L2 · 趋势式：基于既有趋势但有方向性判断（例："12 个月内 X 行业将持续低迷"）
L3 · 大胆式：与当前共识有显著偏离，需要具体事件发生（例："3 个月内某重要会议将延期"）
L4 · 狂野式：极小概率事件 + 短窗口，命中难度最高（例："本月内某政权将更迭"）

分级保证不同评论员之间的可比性：一个稳健派的 L2 高命中率 ≠ 一个押大胆派的 L4 偶然命中。

4️⃣ 判定流程：四阶段

每条候选预测需通过四阶段才会公开发布：

提取（Opus）：Claude Opus 从文字稿中识别候选预测
复核（Opus）：Claude Opus 二次审阅，剔除不符合"预测"定义的候选
对手审（GPT）：OpenAI GPT 从对立模型视角再次审阅，质疑提取结果
严格共识：只有两个模型都判同一结果的条目才会发布；分歧条目进入人工复核

这套流程的设计目的是降低单一模型偏见 — 一个模型的幻觉或漏判，会被另一个模型纠正。

5️⃣ 判定标签

🎯 应验：预测的事件在窗口内发生，符合所有限定条件
🌗 半应验：方向对，但程度或时间略有偏差
💥 翻车：窗口已过，预测的事件未发生 / 反向发生
🔮 待观察：窗口尚未到期
❔ 难以核实：缺乏公开可验证的信息，无法做出明确判定

"翻车"是对预测内容的判定，不是对预测人的评价。

⚠️ 已知局限

我们尽力做到客观，但承认以下局限：

语音转写可能存在错误，特别是专有名词与口音差异
大模型对"预测语义"的判断有边界 — 修辞性表达可能被误判为预测，反之亦然
核查所依赖的公开信息源本身可能有偏差
样本覆盖随时间扩展，早期数据集体量较小

所有这些局限都是可申请纠错的。详见 📮 纠错与联系。

🔗 更多

ℹ️ 关于本站 — 项目目的与立场
📮 纠错与联系 — 申请更正、补充背景
🏠 返回主页