BiliNote：AI视频笔记生成工具让AI为视频做笔记

BiliNote 是一个开源的 AI 视频笔记助手，支持通过B 站哔哩哔哩、YouTube、抖音等视频链接，自动提取内容并生成结构清晰、重点明确的 Markdown 格式笔记。支持插入截图、原片跳转等功能。

功能特性

支持多平台：Bilibili、YouTube、本地视频、抖音（后续会加入更多平台）
支持返回笔记格式选择
支持笔记风格选择
支持多模态视频理解
支持多版本记录保留
支持自行配置 GPT 大模型
本地模型音频转写（支持 Fast-Whisper）
GPT 大模型总结视频内容
自动生成结构化 Markdown 笔记
可选插入截图（自动截取）
可选内容跳转链接（关联原视频）
任务记录与历史回看

支持的语音服务
目前支持的语音服务有：

本项目中的“大模型”特指用于生成内容的对话类语言模型，例如 OpenAI 的 GPT、DeepSeek、通义千问、Claude 等。因此，在使用这些大模型之前，建议你了解一些基本概念，这不仅有助于理解本项目的使用方式，也能提升你对本文档内容的理解。

以下是几个重要的概念：
供应商（Provider）
指提供大模型 API 服务的公司或平台，例如 OpenAI、阿里云（通义千问）、百度、DeepSeek 等。不同供应商的模型能力、接口规范和计费方式各不相同。建议找到你需要使用的供应商的官方文档进行查看阅读。

模型（Model）
模型是指具体用于处理任务的 AI 模型版本，例如 gpt-3.5-turbo、gpt-4、qwen-turbo、deepseek-chat、claude-3-opus 等。不同模型在性能、响应速度、价格等方面有所差异。在配置时，需要根据你所选供应商提供的模型名称进行准确填写，否则可能会导致接口调用失败或返回不符合预期的结果。
多模态模型
多模态模型是指能够同时处理多种类型的输入（如文本、图片、音频、视频等）的 AI 模型。相比传统仅支持文本的语言模型，多模态模型具有更强的理解和生成能力，适用于更复杂的场景，例如图文对话、语音转写、视频摘要等。
常见的多模态模型包括：

GPT-4o（OpenAI）：支持文本、图像、语音输入，响应速度快，适合通用型场景；
通义千问·视觉模型：支持图文输入，适用于图片问答、OCR 场景；
Claude 3 系列：部分模型具备图像处理能力，适合图文综合分析；
Gemini（Google）：面向多模态搜索和复杂任务处理；
自部署模型（如 MiniGPT-4、LLaVA 等）：适用于对隐私、安全要求较高的本地化场景。

是否支持多模态，取决于供应商和模型本身，请根据具体文档说明进行选择和配置。

API 地址（Base_URL）
接口地址是指你请求大模型 API 时所使用的基础 URL。不同的供应商会提供不同的地址，例如：

OpenAI 官方地址：https://api.openai.com/v1
通义千问地址（阿里云）：https://dashscope.aliyuncs.com/api/v1
自建模型服务（ollama）： http://localhost:11434/v1

正确配置 API 地址是调用 API 成功的前提之一，填写错误可能会导致请求失败。

API 密钥（API Key）
API 密钥是用于验证身份并访问模型服务的凭证，由各大模型供应商在用户注册或创建应用后提供。例如：

OpenAI 提供的密钥格式通常为 sk-xxxxxx
通义千问使用的是 DashScope 的 Access Token
DeepSeek、Claude 等也会在控制台提供对应的 API Key 或 Token

你需要将该密钥正确配置在系统中，以便在请求模型时完成身份验证。请妥善保管你的 API 密钥，切勿泄露或上传到公开仓库。

BiliNote：AI视频笔记生成工具让AI为视频做笔记

什么是Context上下文？

抽象两种方法：上下文与类型

Content与Context一字之差暗藏逆天极道

语境崩塌：你的注意力正被劫持

Context逻辑之道