BiliNote 是一个开源的 AI 视频笔记助手,支持通过B 站哔哩哔哩、YouTube、抖音等视频链接,自动提取内容并生成结构清晰、重点明确的 Markdown 格式笔记。支持插入截图、原片跳转等功能。
功能特性
- 支持多平台:Bilibili、YouTube、本地视频、抖音(后续会加入更多平台)
- 支持返回笔记格式选择
- 支持笔记风格选择
- 支持多模态视频理解
- 支持多版本记录保留
- 支持自行配置 GPT 大模型
- 本地模型音频转写(支持 Fast-Whisper)
- GPT 大模型总结视频内容
- 自动生成结构化 Markdown 笔记
- 可选插入截图(自动截取)
- 可选内容跳转链接(关联原视频)
- 任务记录与历史回看
支持的语音服务
目前支持的语音服务有:
- Fast-Whisper
- bcut (不稳定)
- kuaishou (不稳定)
- mlx-whisper(仅Apple平台)
- Groq
本项目中的“大模型”特指用于生成内容的对话类语言模型,例如 OpenAI 的 GPT、DeepSeek、通义千问、Claude 等。 因此,在使用这些大模型之前,建议你了解一些基本概念,这不仅有助于理解本项目的使用方式,也能提升你对本文档内容的理解。
以下是几个重要的概念:
供应商(Provider)
指提供大模型 API 服务的公司或平台,例如 OpenAI、阿里云(通义千问)、百度、DeepSeek 等。不同供应商的模型能力、接口规范和计费方式各不相同。 建议找到你需要使用的供应商的官方文档进行查看阅读。
模型(Model)
模型是指具体用于处理任务的 AI 模型版本,例如 gpt-3.5-turbo、gpt-4、qwen-turbo、deepseek-chat、claude-3-opus 等。不同模型在性能、响应速度、价格等方面有所差异。 在配置时,需要根据你所选供应商提供的模型名称进行准确填写,否则可能会导致接口调用失败或返回不符合预期的结果。
多模态模型
多模态模型是指能够同时处理多种类型的输入(如文本、图片、音频、视频等)的 AI 模型。相比传统仅支持文本的语言模型,多模态模型具有更强的理解和生成能力,适用于更复杂的场景,例如图文对话、语音转写、视频摘要等。
常见的多模态模型包括:
- GPT-4o(OpenAI):支持文本、图像、语音输入,响应速度快,适合通用型场景;
- 通义千问·视觉模型:支持图文输入,适用于图片问答、OCR 场景;
- Claude 3 系列:部分模型具备图像处理能力,适合图文综合分析;
- Gemini(Google):面向多模态搜索和复杂任务处理;
- 自部署模型(如 MiniGPT-4、LLaVA 等):适用于对隐私、安全要求较高的本地化场景。
API 地址(Base_URL)
接口地址是指你请求大模型 API 时所使用的基础 URL。不同的供应商会提供不同的地址,例如:
- OpenAI 官方地址:https://api.openai.com/v1
- 通义千问地址(阿里云):https://dashscope.aliyuncs.com/api/v1
- 自建模型服务(ollama): http://localhost:11434/v1
API 密钥 (API Key)
API 密钥是用于验证身份并访问模型服务的凭证,由各大模型供应商在用户注册或创建应用后提供。例如:
- OpenAI 提供的密钥格式通常为 sk-xxxxxx
- 通义千问使用的是 DashScope 的 Access Token
- DeepSeek、Claude 等也会在控制台提供对应的 API Key 或 Token