你有没有试过把一段短视频发给 Claude 或 ChatGPT,想让它分析画面内容,结果它只读了字幕或干脆报错?目前绝大多数大模型根本“看不见”视频——它们要么只能处理文字转录,要么依赖云端粗粒度抽帧(比如每秒一张),漏掉关键镜头、重复发送相似画面,还可能上传隐私内容。而 claude-real-video 正是为解决这个痛点诞生的开源工具:它不联网、不上传、不瞎抽帧,而是像人类一样——只抓“有变化的场景”,自动去重、精准截帧、同步生成语音文本,把整段视频变成大模型真正能“阅读”的结构化资料包。
核心功能
- 智能场景识别:不按固定时间间隔抽帧,而是通过算法检测真实镜头切换(scene change),确保每个关键画面都被捕获,快剪、转场、跳切统统不遗漏
- 滑动窗口去重:自动识别并剔除重复或高度相似的帧(如PPT讲解中长时间静止的画面),避免大模型被冗余信息干扰
- 本地端到端处理:支持 YouTube 链接、本地 MP4/MOV 等常见格式,所有计算(解码、帧提取、ASR语音转写)均在你的电脑完成,隐私零泄露
- 结构化输出三件套:一键生成
frames/(精选 JPG 帧)、transcript.txt(带时间戳的逐句转录)和MANIFEST.txt(帧与时间轴映射关系),专为 Claude / ChatGPT / Gemini 等多模态模型优化设计 - 轻量易集成:命令行单指令启动(
crv "https://..."),输出目录可直接拖入聊天界面,无需手动整理或格式转换 - MIT 完全开源:代码简洁透明,Python 编写,支持自定义参数(如最小场景时长、ASR 模型选择),开发者可深度定制
适合哪些人用
这款工具特别适合内容创作者、教育工作者、AI 研究者和隐私敏感型用户:如果你需要让大模型分析教学录像、会议回放、产品演示视频或自媒体素材,又不想把原始视频上传至第三方服务器;如果你常因“模型说没看到关键画面”而反复调试提示词;或者你正在搭建本地 AI 工作流,追求可复现、可审计、可离线的视频理解能力——那么它就是为你量身打造的“视频翻译官”。
快速上手
只需三步:
- 安装依赖:
pip install claude-real-video(需 Python 3.9+,自动安装 ffmpeg、whisper、opencv 等底层库) - 运行解析:
crv "https://www.youtube.com/watch?v=abc123"或crv ./my_video.mp4 - 等待完成(时长取决于视频和硬件),打开生成的
crv-out/文件夹,将整个文件夹拖入 Claude 等支持多文件上传的对话框即可提问,例如:“第3个场景中人物穿什么颜色衣服?结合 transcript 解释他在做什么?”
首次运行会自动下载 Whisper 中文语音模型(约 2GB),后续使用极速响应。Mac / Windows / Linux 全平台支持。
项目信息
Let Claude (or any LLM) actually watch a video — scene-aware, deduplicated frames + transcript, from a URL or local file. Runs locally, MIT.
481
Stars
18
Forks
Python
MIT
编程语言:Python|GitHub Star 数:481|开源协议:MIT|GitHub 项目地址
它不炫技、不造概念,却实实在在填补了“大模型看视频”这一关键能力的本地化空白——用聪明的方式,做该做的事。


