# Vision Review — 视频理解审查

对 AI 短剧的静态帧和动态视频做结构化视觉审查。对标 LeadStageAI step2_analyze 的"decompose+converge"范式。

## 模式

| 模式 | 用途 | 输入 |
|---|---|---|
| `frame` | 单帧画质+角色+风格评估 | 1 张图片 |
| `consistency` | 跨帧角色一致性对比 | 2-5 张图片 |
| `video` | I2V 视频动态审查 | 1 个 MP4 |

## 环境配置

```text
VISION_REVIEW1_API_KEY=sk-xxx
VISION_REVIEW1_BASE_URL=https://api.example.com
VISION_REVIEW1_MODEL=mimo-v2.5
```

自动 fallback：VISION_REVIEW1 → VISION_REVIEW2 → IMAGE_REVIEW1 → IMAGE_REVIEW2。

## 使用

```powershell
# 单帧审查
python vision_review.py frame "refs\persian_cat_v2.png"

# 角色一致性对比
python vision_review.py consistency "frames\cat_01.png" "frames\cat_02.png" "frames\cat_03.png"

# I2V 视频审查
python vision_review.py video "videos\PU001_i2v.mp4"

# 自定义 prompt
python vision_review.py frame "refs\cat.png" --prompt "重点检查猫的耳朵是否一致"
```

## 评分维度

| 模式 | 打分项 |
|---|---|
| frame | quality(画质) / character(角色) / style(风格) / overall |
| consistency | face(面部) / outfit(服装) / overall + pass/fail |
| video | motion(运动) / character(角色稳定) / visual(视觉) / overall + usable |

## Decompose+Converge 范式（来自 LeadStageAI）

将视频分析分解为 5 个独立子任务，各自专注一个维度，最后合并：

1. **shots** — 逐镜客观画面描述（人物/物体/镜头运动）
2. **characters** — 角色身份识别，锚定关键帧提取面部硬特征，自洽收敛（3-6 次迭代）
3. **motion** — 全局跨镜动线追踪
4. **structure** — 高层叙事分析（钩子/结构/情绪/评分）
5. **audio** — 音频/BGM/音效独立分析