分类：人工智能

强大的AI推荐

picoo：AI创作，一站搞定，集成Veo、Gemini等顶级AI模型，视频图像创作更快更专业

AI创作图片，视频，集成到一个站点，方便操作，同时网站为所有用户提供每日免费额度。无需信用卡即可立即开始创作

网站截图

网站特色

所有顶级AI视频和图像模型，尽在一处！

AI 视频生成器

一站集成所有顶级视频模型

Veo 3Veo 2Sora 2Kling AISedarceWan AIAI 视频生成器

AI 图像生成器

领先的图像模型一应俱全

Gemini(Nano Banana)Flux AIGPT-imageSeedreamFlux KontextQwen ImageWan AIAI 图像生成器

网站链接

https://picooai.com/zh-CN

2026年1月8日

Prisma：基于 Gemini 3 的开源可视化深度多智能体推理引擎，支持动态规划、思维链可视化和多会话管理

项目简介

Prisma 是一款探索 Google Gemini 3.0 推理极限的实验性应用。它不仅仅是一个聊天机器人，更是一个可视化的思维实验室。

它引入了 “深度多智能体推理 (Deep Multi-Agent Reasoning)” 架构，将复杂的用户问题动态分解为子任务，分派给专门的 AI 专家角色并行处理。用户可以实时观看 AI 如何通过 Manager（规划） -> Experts（执行） -> Synthesis（综合） 的工作流来解决复杂问题。

项目截图

在线体验

无需部署，直接体验 Prisma 的强大推理能力：

平台	入口	说明
Google AI Studio	🚀 立即运行	推荐。直接登录 Google 账号即可免费使用，无需配置 API Key，开箱即用。
Web 演示版	🌐 访问网页	纯前端版本，需要填写您自己的 Google API Key 才能运行。

✨ 核心特性

🧠 深度多智能体架构 (Deep Reasoning)

动态规划 (Manager Agent)：根据用户的问题，智能分析并决定需要哪些领域的“专家”介入。
并行专家池 (Expert Pool)：系统会自动生成专门的 AI 角色（如“逻辑学家”、“代码架构师”、“历史研究员”），它们并行工作，互不干扰。
递归优化 (Recursive Refinement)：
- 自省循环：Manager 会审查专家的输出。如果发现逻辑漏洞或信息缺失，会自动驳回并启动下一轮修正（支持最多 3 轮迭代）。
- 最终综合：将分散的专家意见汇聚成一篇逻辑严密、内容详实的最终回复。

👁️ 全链路可视化

思维流 (Process Flow)：通过动态节点图展示当前的推理状态（Analyzing -> Working -> Reviewing -> Synthesizing）。
透明化思考：你可以点开每一个“专家卡片”，查看其私有的 Internal Monologue (内部独白) 和 Draft Output (草稿)。
实时计时器：精确追踪每个环节的耗时，了解 AI 的时间分配。

⚙️ 精细化控制

思考预算 (Thinking Budget)：
- 支持为规划、执行、综合三个阶段分别设置思考深度（Minimal, Low, Medium, High）。
- 这决定了模型在生成 Token 时分配给 “Thinking” 字段的配额。
模型切换：无缝切换 Gemini 3 Flash (速度优先) 和 Gemini 3 Pro (深度优先)。

🛠️ 现代化工程体验

自定义 API 网关：支持配置 Custom Base URL，方便国内用户通过反向代理连接。
Markdown & LaTeX：完美渲染复杂的数学公式、代码块和图表。
本地优先：所有会话历史存储在浏览器 LocalStorage 中，保护隐私。

⚙️ 快速开始

1. 克隆项目

git clone https://github.com/yeahhe365/Prisma.git
cd Prisma

2. 安装依赖

npm install

3. 配置环境

在项目根目录创建 .env.local 文件并填入你的 API Key：

GEMINI_API_KEY=your_api_key_here

4. 启动开发服务器

npm run dev

访问 http://localhost:3000 即可开始推理。

项目地址

https://github.com/yeahhe365/Prisma

2026年1月8日

subvideo：AI配音与AI字幕制作，字幕翻译合三为一，修改字幕、翻译与导出一气呵成

几分钟内创建 AI 配音和字幕。语音库、精准字幕时间轴，导出为音频或视频

无论是社媒发布、专业剪辑还是无障碍场景，导出格式覆盖所有需求。简单、灵活、随处可用

网站截图

工具特色

🎙️AI 配音：选择声音，调节语速与音调。导出为音轨或成品视频。

📝自动字幕：精准转录与干净时间码。导出 SRT/ASS，或直接烧录进视频。

🌍翻译：将你的字幕翻译成 40 多种语言，或直接将整个视频配上自然的 AI 配音。时间轴将保持同步。

🔥烧录（硬字幕）：将字幕与/或配音固定到视频中——非常适合 YouTube、Shorts 与 Reels。

🎙️配音（AI）

声音库与多语言

40+ 语言的自然 AI 声音——支持搜索、分类与预览。

来源于字幕的时间码与说话人分配

从字幕获得干净口型同步，为每位说话人分配声音——同步且一致。

语速与音调微调

数秒内调整声音、语速与音调——自然且贴合内容。

导出：音轨与成品视频

可导出为独立音轨——或直接渲染带配音的视频。

术语库与自学习 AI

保持术语一致——品牌名与技术词汇准确发音。

音频优化

降噪与电平控制——获得干净清晰的输出。

📝字幕（AI）

🤖AI 驱动的字幕生成器

数秒内生成字幕——精准、多语言、时间码干净。

🗂️带时间轴的字幕工作室

可视化编辑、设定样式并与音频同步——就像 Premiere/Final Cut。

🔥烧录字幕（硬字幕）

将字幕固定进视频——包含位置、安全区、边距与字体设置。

🎨行内编辑与样式

逐行编辑文本、字体、颜色、说话人标签等。

🌍一键翻译

70+ 语言即可导出——保留时间码与可读性。

📦多格式导出

SRT、ASS、DOCX、JSON、CSV 等——一键下载。

🚪访客模式上传

无需账户即可创建字幕。稍后注册即可无限保存。

👥AI 说话人识别

自动识别说话人，并为每人分配专属样式以提升可读性。

网站地址

https://subvideo.ai/zh

2026年1月7日
AIART PICS：AI 图像生成提示词灵感库，全网最大的 Nano Banana 提示词库！汇聚 900+ 位全球创作者的3200+ 精选案例
网站介绍

AIART PICS：AI 图像生成提示词网站，精选 3000+ Gemini、ChatGPT、Midjourney、Stable Diffusion 提示词。涵盖摄影、插画、3D 渲染、UI 设计、创意海报等 20+ 个专业领域，全方位展示 Google 图像生成模型的无限可能。每个案例都经过人工筛选，确保质量和实用性。

点击案例即可复制提示词使用。

截图

特色
- 🏆 规模最大 – 3200+ 提示词，900+ 位创作者，持续增长
- ✅ 质量保证 – 所有案例都是真实生成结果，附带原图展示
- 🎯 即用即学 – 每个提示词都可直接复制使用，快速上手
- � 每日更新 – 自动化收集最新优质案例，保持时效性
- � 双语支持 – 中英文双语界面，服务全球用户
- 🔗 完整溯源 – 每个案例都附带原始来源，尊重创作者
获取链接

网站地址：https://aiart.pics/

项目地址：https://github.com/Jermic/awesome-aiart-pics-prompts
2026年1月5日
YouMedHub：一个基于 AI的视频分析、剪辑工具，利用AI快速分析生成视频脚本
AI 视频内容分析，基于 Vue 3 + TypeScript 的智能视频分析应用，使用阿里云通义千问视觉模型自动分析视频内容，生成详细的脚本拆解表格。

对于短视频的分析效果很好，速度很快，直接生成视频脚本，自动化拆解分析视频

项目截图

功能特性
- 📹 视频分析：上传视频或提供视频 URL，AI 自动分析视频内容
- 📊 脚本拆解：生成包含景别、运镜、画面内容、口播等详细信息的结构化表格
- 🎬 视频片段预览：鼠标悬停即可播放对应时间段的视频片段
- 🔐 安全存储：API Key 本地存储，保护隐私
- 🎯 实时流式输出：Markdown 流式显示，所见即所得
- 📈 Token 统计：实时显示输入/输出/总计 Token 使用量
快速开始

1. 安装依赖
```
pnpm install
```
2. 配置 API Key

获取阿里云 DashScope API Key：https://help.aliyun.com/zh/model-studio/get-api-key

方式一：在应用界面配置（推荐）
- 启动应用后点击右上角”配置 API Key”按钮
方式二：环境变量配置
```
cp .env.example .env
# 编辑 .env 文件，填入你的 API Key
```
3. 启动开发服务器
```
pnpm dev
```
4. 构建生产版本
```
pnpm build
```
使用说明
1. 启动应用后，点击上传区域选择视频文件（支持 MP4、MOV、AVI 等格式，最大 100MB）
2. 点击”开始分析”按钮，等待 AI 分析完成
3. 查看分析结果表格，鼠标悬停视频片段可预览播放
注意事项
- 视频文件最大支持 100MB
- 视频使用浏览器直传到阿里云 OSS（无需经过服务器，节省带宽）
- 视频内容需通过安全检查才能分析
- API 调用需要有效的阿里云 DashScope API Key
- 需要配置阿里云 OSS 环境变量（详见 .env.example）
项目地址

github：https://github.com/kociii/youmedhub

网站：https://www.youmedhub.com/
2026年1月5日
PushToTalk – 语音输入助手，按住快捷键说话，松开自动转录并插入文本，AI 智能助手，语音控制一切
PushToTalk 是一个高性能的桌面语音输入工具，集成了大语言模型（LLM）能力。支持两种工作模式：
1. 听写模式：按住 Ctrl+Win 说话，松开后自动转录并插入文本，支持 LLM 智能润色
2. AI 助手模式：选中文本后按 Alt+Space 说话，用语音命令处理选中的文本；或直接提问获得答案
软件介绍

PushToTalk 是一个高性能的桌面语音输入工具。它不仅仅是一个语音转文字工具，更集成了大语言模型（LLM）能力。你可以按住 Ctrl+Win 说话，松开后应用会自动将你的语音转为文字，并根据你的设定进行润色、翻译或整理成邮件，最后自动粘贴到当前光标位置。支持豆包/千问

截图

核心特性

双模式工作
- 🎤 听写模式 – 传统的语音转文字功能
  - 按住模式：按住快捷键录音，松开停止（传统方式）
  - 松手模式：按一次 F2 开始录音，再按一次结束（防止误停）
- 🤖 AI 助手模式 – 语音控制文本处理
  - 无选中文本：Q&A 模式，提问获得答案
  - 选中文本：语音命令处理文本（翻译、润色、总结、扩写等）
核心功能
- ⚡ 实时流式转录 – WebSocket 边录边传，极低延迟（< 500ms），松手即出字
- 🧠 LLM 智能后处理 – 内置”文本润色”、”邮件整理”、”中译英”等预设，支持自定义 Prompt
- ⌨️ 自定义快捷键 – 支持 73 种按键绑定（修饰键、字母、数字、功能键、方向键等）
- 🔄 多 ASR 引擎 – 支持阿里云 Qwen、豆包 Doubao、SiliconFlow SenseVoice
- 🛡️ 智能兜底 – 主引擎失败时自动切换到备用引擎，并行竞速
- 🎨 可视化反馈 – 录音状态悬浮窗，实时波形显示，三种视觉状态
- 🔊 音频反馈 – 录音开始/结束的清脆提示音，盲操也放心
- 📜 历史记录 – 自动保存转录历史，支持搜索、复制、清空
- 🚀 系统托盘 – 支持最小化到托盘、开机自启动
- 🔄 自动更新 – 内置 6 个镜像源，自动检查并安装更新
- 💾 多配置管理 – 支持保存多套 LLM 预设，通过界面快速切换不同场景
快速开始

安装
1. 从 Releases 下载最新版本的安装包
2. 运行 NSIS 安装程序完成安装
3. 右键点击应用图标，选择”以管理员身份运行”
⚠️ 重要：必须以管理员身份运行才能使用全局快捷键功能

配置

快捷链接

API Key申请教学文档

1. ASR 配置（至少配置一个）

阿里云 Qwen（推荐）
- 超大量的免费额度，2025 年 3 月前基本用不完
- 支持实时流式和 HTTP 两种模式
- 获取 DashScope API Key
豆包 Doubao（可选）
- 支持实时流式和 HTTP 两种模式
- 录音文件识别大模型-极速版开通
- 流式语音识别大模型-小时版开通
- 注意：App ID 和 Access Token 在网页下方
硅基流动 SenseVoice（可选，免费）
- 免费使用的备用引擎
- 可作为主引擎的智能兜底
- 获取 SiliconFlow API Key
2. 快捷键配置（可自定义）

听写模式：
- 默认快捷键：Ctrl + Win
- 松手模式快捷键：F2
- 可自定义为任意组合键（支持 73 种按键）
AI 助手模式：
- 默认快捷键：Alt + Space
- 可自定义为任意组合键
3. LLM 配置（可选）

听写模式 LLM（文本润色）
- 用于对转录结果进行润色、翻译等后处理
- 推荐使用免费的智谱 GLM-4-Flash
- 获取智谱 API Key
- 可添加多个自定义预设（文本润色、中译英、邮件整理等）
AI 助手模式 LLM（必需）
- 用于 AI 助手模式的文本处理和问答
- 支持 OpenAI 兼容接口
- 配置两个系统提示词：
  - Q&A 提示词：用于回答问题
  - 文本处理提示词：用于处理选中的文本
4. 系统设置（可选）
- 关闭时最小化到托盘 – 关闭窗口时保持后台运行
- 开机自启动 – 系统启动时自动运行（需要管理员权限）
5. 保存并启动

点击”保存配置”并”启动助手”。

📖 使用指南

听写模式

按住模式（传统方式）
1. 将光标定位在任何输入框（微信、Word、VS Code）
2. 按住 Ctrl + Win 键，听到”滴”声后开始说话
3. 说完松开按键，听到结束提示音
4. 等待处理（悬浮窗显示处理状态），文本将自动打字上屏
松手模式（防误停）
1. 将光标定位在输入框
2. 按一次 F2 键（可自定义），听到”滴”声后开始说话
3. 说话时手可以松开，防止长时间说话时误停
4. 说完后再按一次 F2 键，听到结束提示音
5. 等待处理，文本将自动打字上屏
松手模式悬浮窗：
- 蓝色药丸状态，中间显示迷你波形
- 左边 ❌ 按钮：取消录音
- 右边 ✓ 按钮：结束录音并转录
- 60 秒超时自动取消
AI 助手模式

Q&A 模式（无选中文本）
1. 将光标定位在输入框
2. 按住 Alt + Space 键（可自定义），说出你的问题
3. 例如：”What is the capital of France?”
4. 松开按键，LLM 将自动回答并插入答案
文本处理模式（选中文本）
1. 在任何应用中选中一段文本
2. 按住 Alt + Space 键，说出你的命令
3. 常用命令示例：
  - “翻译成英文” – 将选中的中文翻译成英文
  - “润色一下” – 优化选中的文本
  - “总结一下” – 生成摘要
  - “扩写成三段” – 扩展内容
  - “添加注释” – 为代码添加注释
4. 松开按键，LLM 将处理选中的文本并替换
历史记录

在主界面的”历史记录”标签页可查看所有转录记录：
- 显示转录文本、时间、模式
- 支持搜索功能
- 点击复制按钮快速复制
- 一键清空所有历史
软件下载

github：https://github.com/yyyzl/push-2-talk/releases/

使用教程
2026年1月4日
西瓜说：离线AI语音输入，对你的语音输入进行翻译、转写、润色等处理

只需说出你的想法，系统会自动加工成专业、得体的文字输出，帮你轻松应对各种场景

在应用设置中，你可以创建多个自定义人设模板。每个模板可以设定不同的风格和语气，比如专业助手、幽默段子手、会议记录员等。使用时快速切换，满足不同场景的需求。

正在全力适配更多平台，优先选择了 Apple Silicon 是因为其优秀的性能能够更好地支持本地 AI 模型运行。Windows 和 Linux 版本正在开发中，敬请期待

AI 模型经过优化，占用空间约 900 MB，相比带来的离线体验，这个代价是完全值得的。离线识别 + 在线精修，灵活使用。

软件截图

核心特性

为创作者打造，让每一次语音输入都成为灵感的延伸

本地二次转写：首次输出极快，二次优化精确。相同模型更优工程，离线情况下对实时识别内容二次优化，大大提升输出体验。

AI 智能精修：支持标准 OpenAI 接口，一键翻译、转写、润色。说出你的想法，自动加工成专业话语。

自定义人设：打造专属转写风格，百变星君就是你。随时切换，适应各种场景需求。

使用场景

从灵感闪现到专业输出，一站式搞定

工作报告：语音转文字 + AI 润色，快速生成专业报告

跨语言沟通：一键翻译，突破语言障碍

社交互动：随时切换人设，让表达恰到好处

软件下载

下载安装包后直接安装即可，首次使用会自动下载 AI 模型。使用时按住快捷键（默认为 Fn）即可启动语音输入，松开后即可输入到任意文本框。在设置中配置 OpenAI 接口即可使用精修功能。

官网地址：https://xiguasay.qwenkimi.com/

2026年1月2日
WhisperJAV：一款生成日本*人视频字幕的AI字幕生成器，支持 DeepSeek（价格低廉）、Gemini（免费版）、Claude、GPT-4 和 OpenRouter。
WhisperJAV不多介绍，通过AI给视频配字幕的工具，可以接入各种AI，是新鲜字幕自动生成，针对性优化，效果很好

项目截图

项目安装

Windows Installer（最简单）

下载并运行：WhisperJAV-1.7.4-Windows-x86_64.exe

这会安装所有必需的软件，包括 Python 及其依赖项。

从以前的安装程序版本升级

如果您是通过 Windows 安装程序安装的 v1.5.x 或 v1.6.x 版本：
1. 下载upgrade_whisperjav.bat
2. 双击运行
3. 等待1-2分钟
这样就可以在不重新下载 PyTorch（约 2.5GB）或 AI 模型（约 3GB）的情况下更新 WhisperJAV。

从源代码安装

需要 Python 3.9-3.12、FFmpeg 和 Git。

推荐：使用安装脚本（自动处理依赖冲突，自动检测 GPU）：视窗
```
git clone https://github.com/meizhong986/whisperjav.git
cd whisperjav
installer\install_windows.bat              # Auto-detects GPU and CUDA version
installer\install_windows.bat --cpu-only   # Force CPU only
installer\install_windows.bat --cuda118    # Force CUDA 11.8
installer\install_windows.bat --cuda124    # Force CUDA 12.4
installer\install_windows.bat --minimal    # Minimal install (no speech enhancement)
installer\install_windows.bat --dev        # Development/editable install
```
脚本会自动执行以下操作：
- 检测您的 NVIDIA GPU 并选择最佳 CUDA 版本
- 如果未找到 GPU，则回退到仅使用 CPU。
- 检查 WebView2 运行时（GUI 需要）
- 安装日志install_log_windows.txt
- 下载失败后最多重试 3 次
Linux / macOS
```
# Install system dependencies first (Linux only)
# Debian/Ubuntu:
sudo apt-get install -y python3-dev build-essential ffmpeg libsndfile1

# Fedora/RHEL:
sudo dnf install python3-devel gcc ffmpeg libsndfile

git clone https://github.com/meizhong986/whisperjav.git
cd whisperjav
chmod +x installer/install_linux.sh
./installer/install_linux.sh               # Auto-detects GPU
./installer/install_linux.sh --cpu-only    # Force CPU only
./installer/install_linux.sh --minimal     # Minimal install
```
跨平台 Python 脚本
```
git clone https://github.com/meizhong986/whisperjav.git
cd whisperjav
python install.py              # Auto-detects GPU, defaults to CUDA 12.1
python install.py --cpu-only   # CPU only
python install.py --cuda118    # CUDA 11.8
python install.py --cuda121    # CUDA 12.1
python install.py --cuda124    # CUDA 12.4
python install.py --minimal    # Minimal install (no speech enhancement)
python install.py --dev        # Development/editable install
```
另一种方法：手动使用 pip 安装（可能会遇到依赖冲突）：
```
# Install PyTorch with GPU support first (NVIDIA example)
pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu124

# Then install WhisperJAV
pip install git+https://github.com/meizhong986/whisperjav.git@main
```
平台说明：
- Apple Silicon（M1/M2/M3/M4）：仅pip install torch torchaudio支持 MPS 加速，自动运行。
- AMD GPU (ROCm)：实验性功能。使用此功能--mode balanced可获得最佳兼容性。
- 仅使用 CPU：可运行但速度较慢。用于--accept-cpu-mode跳过 GPU 警告。
- Linux 服务器（无 GPU）：安装脚本会自动检测并切换到仅使用 CPU 的模式。
- Linux（Debian/Ubuntu）：请先安装系统依赖项：sudo apt-get install -y python3-dev build-essential ffmpeg libsndfile1
先决条件
- Python 3.9-3.12（3.13+ 与 openai-whisper 不兼容）
- 将 FFmpeg添加到系统路径中
- 推荐显卡：NVIDIA CUDA、Apple MPS 或 AMD ROCm
- 安装需要8GB 以上的磁盘空间
免责声明

此工具可生成辅助功能字幕。用户有责任遵守与其处理的内容相关的适用法律。

项目地址

https://github.com/meizhong986/WhisperJAV
2026年1月2日
DictionaryByGPT4：一本 GPT4 生成的单词书📚，超过 8000 个单词分析，涵盖了词义、例句、词根词缀、变形、文化背景、记忆技巧和小故事
阿喵前言

从小学开始念 ABC，到大学毕业考完 CET-4/6 级，我们学习英语的周期不可谓不长。但是由于缺乏文化背景和沉浸式的语言环境，大部分人学完考完就抛，最终只记得一些简单的词汇，说两句生硬的句子。白白浪费了大量的时间和精力，让人惋惜。

语言本质上是文化的载体和表达交流的工具。但是在传统的教学实践中，往往关注在死记硬背、词性句法等让学习者一头雾水的方面，大大降低了他们学习语言的好奇心和使用语言的热情。

AI用来学习语言绝对是个不错的选择。今天我们来看看 ChatGPT 在英语单词学习这个垂直领域带来的变化。

推荐这本开源单词书。
整本内容由 GPT-4 生成，共分析了 8000+ 高频与进阶词汇，不只是给你一个中文意思就结束。

每个单词都会拆开来讲：常见用法、例句、词根词缀、词形变化，还会补充一些文化背景、记忆技巧，甚至配一个小故事，读起来更像在理解词，而不是背词。

比较适合已经有一定基础、想把词汇真正“用活”的人，当作长期查阅或进阶词汇书都不错。

希望这份 GPT 单词本可以帮你快速提高词汇量，将英语能力提升到更高水平。

项目截图

AI提示词

现在 AI 可以担任专业+个性化的老师的角色，拥有完整的文化背景知识和丰富的输入输出模态，而你需要的只是一段简单的设定提示词和足够便宜的 token 消耗费用：
```
# 角色

你是一名中英文双语教育专家，拥有帮助将中文视为母语的用户理解和记忆英语单词的专长，请根据用户提供的英语单词完成下列任务。

## 任务

### 分析词义

- 系统地分析用户提供的英文单词，并以简单易懂的方式解答；

### 列举例句

- 根据所需，为该单词提供至少 3 个不同场景下的使用方法和例句。并且附上中文翻译，以帮助用户更深入地理解单词意义。

### 词根分析

- 分析并展示单词的词根；
- 列出由词根衍生出来的其他单词；

### 词缀分析

- 分析并展示单词的词缀，例如：单词 individual，前缀 in- 表示否定，-divid- 是词根，-u- 是中缀，用于连接和辅助发音，-al 是后缀，表示形容词；
- 列出相同词缀的的其他单词；

### 发展历史和文化背景

- 详细介绍单词的造词来源和发展历史，以及在欧美文化中的内涵

### 单词变形

- 列出单词对应的名词、单复数、动词、不同时态、形容词、副词等的变形以及对应的中文翻译。
- 列出单词对应的固定搭配、组词以及对应的中文翻译。

### 记忆辅助

- 提供一些高效的记忆技巧和窍门，以更好地记住英文单词。

### 小故事

- 用英文撰写一个有画面感的场景故事，包含用户提供的单词。
- 要求使用简单的词汇，100 个单词以内。
- 英文故事后面附带对应的中文翻译。
```
GPT 单词本

基于这套提示词，通过 GPT-4 接口，将涵盖中考、高考、大学四六级的超过 8000 个单词全部分析一遍，最终产出了 GPT 单词本

每个单词分析都涵盖了词义、例句、词根词缀、变形、文化背景、记忆技巧和小故事，通过全方位的介绍让你理解单词的来龙去脉和使用情景。

单词书下载

github：https://github.com/Ceelog/DictionaryByGPT4

在线pdf：https://ceelog.github.io/DictionaryByGPT4/
2025年12月31日
JJYB_AI 智剪 – 智能视频自动剪辑与AI解说工具（离线TTS、原创解说、混剪、AI配音）
JJYB_AI智剪 v2.0 是一个功能完整、配置丰富、文档齐全的专业AI视频编辑工具：
- 🚀 一键启动：智能检查，自动配置
- 🤖 19个AI模型：全面支持主流模型
- ⚙️ 143个配置项：专业级精细调优
- 📚 16个技术文档：完整技术体系
- 🎯 100%完成度：所有功能完整实现
让AI视频创作更简单、更专业！ 🎬✨🚀

⭐ 三大核心功能

🎬 视频编辑器
- 🎯 完整播放控制 + 轨道管理
- ⚡ 音画/字画/字音三重同步 (<100ms)
- ✨ 特效、滤镜、转场完整支持
- 📍 URL: http://localhost:5000/
🎙️ AI配音
- 🔊 多引擎TTS (Edge-TTS/gTTS/voice_clone)
- 🎵 丰富音色库 + 声音克隆
- 🎛️ 实时参数调节
- 📍 URL: http://localhost:5000/voiceover
📝 原创解说
- 🤖 AI视觉理解 → LLM文案 → TTS配音 → 视频合成
- 🔗 完整自动化流程
- 🎯 精确同步机制
- 📍 URL: http://localhost:5000/commentary
🤖 AI模型支持

大语言模型（9种）
- ✅ 通义千问 (阿里巴巴) – 推荐
- ✅ 文心一言 (百度)
- ✅ ChatGLM (智谱AI)
- ✅ DeepSeek – 性价比高
- ✅ OpenAI GPT-4/GPT-3.5 – 专业版
- ✅ Claude 3 (Anthropic) – 高级推理
- ✅ Google Gemini – 多模态
- ✅ 月之暗面 Kimi – 长文本
- ✅ 讯飞星火 (科大讯飞)
视觉分析模型（6种）
- ✅ 通义千问VL – 推荐
- ✅ 百度视觉
- ✅ 腾讯云视觉
- ✅ GPT-4V (OpenAI Vision)
- ✅ Gemini Vision (Google)
- ✅ Claude Vision (Anthropic)
语音TTS模型（4种）
- ✅ Edge-TTS – 免费推荐（23+音色）
- ✅ Google TTS (gTTS) – 免费多语言
- ✅ Azure TTS – 专业级（付费）
- ✅ Voice Clone – 本地语音克隆
ℹ️ 内置回退：已集成 pyttsx3（离线），在网络受限时会自动回退以保证配音可用。

🏗️ 技术架构
```
┌─────────────────────────────────────────┐
│          前端层 (Frontend)              │
│  Flask 3.0 + Socket.IO + 现代化UI       │
└─────────────────────────────────────────┘
                    ↓
┌─────────────────────────────────────────┐
│          AI引擎层 (Backend)             │
│  • 视觉分析 (6种模型)                   │
│  • 文案生成 (9种大语言模型)             │
│  • 语音合成 (4种TTS引擎)                │
│  • 音频处理 (Whisper/Librosa)           │
└─────────────────────────────────────────┘
                    ↓
┌─────────────────────────────────────────┐
│        视频处理层 (Processing)          │
│  FFmpeg + MoviePy + OpenCV              │
└─────────────────────────────────────────┘
                    ↓
┌─────────────────────────────────────────┐
│         数据层 (Database)               │
│  SQLite + 项目管理 + 素材管理           │
└─────────────────────────────────────────┘
```
📁 项目结构
```
JJYB_AI智剪/
├── 启动应用.bat               # ⭐ 一键启动脚本（推荐入口）
├── check_system.py           # 🔍 系统检查与依赖检测
├── init_test_data.py         # 📊 初始化测试数据
├── requirements.txt          # 📋 Python 依赖清单
├── README.md                 # 📖 项目说明（本文件）
├── START_HERE.md             # 🚀 快速入口指南
├── frontend/                 # 🎨 前端 Web 与桌面界面
│   ├── app.py               # Flask 主应用入口（含 WebSocket）
│   ├── templates/           # HTML 模板（核心业务页面 + 公共模板）
│   │   ├── index.html       # 视频编辑器首页
│   │   ├── commentary.html  # 原创解说页面
│   │   ├── remix.html       # 混剪模式页面
│   │   ├── voiceover.html   # AI 配音页面
│   │   ├── settings.html    # 设置与 API 配置页面
│   │   ├── projects.html    # 项目管理页面
│   │   └── ...              # 其他页面（404/500/AI 功能等）
│   └── static/              # 静态资源（CSS/JS/图片/字体等）
├── backend/                 # 🤖 后端服务与 AI 引擎
│   ├── api/                 # API 路由与接口
│   ├── engine/              # AI 引擎与音视频处理核心
│   ├── services/            # 业务服务层（解说/混剪/配音等）
│   ├── config/              # 后端配置（AI/路径等）
│   ├── database/            # 数据库访问与会话管理
│   ├── prompts/             # 提示词模板与系统提示
│   ├── utils/               # 通用工具函数与日志
│   ├── core/                # 核心启动与调度逻辑
│   └── assets/              # 资源与示例文件
├── config/                  # ⚙️ 全局配置（INI/路径等）
├── database/                # 💾 数据库文件
├── logs/                    # 📁 运行日志
├── resource/                # 📦 AI 模型与模板资源
├── uploads/                 # 📥 用户上传文件
├── output/                  # 📤 导出结果文件
├── tests/                   # ✅ 自动化测试
├── 开发文档/                # 📚 完整开发文档
│   ├── README.md           # 开发文档说明
│   ├── 文档索引.md
│   ├── JJYB_AI智剪_完整开发文档.md
│   ├── JJYB_AI智剪_完整开发文档_Part2.md
│   └── JJYB_AI智剪_完整开发文档_Part3.md
└── yolov8n.pt               # 🎯 YOLOv8 模型权重（目标检测）
```
📖 详细使用说明

第一步：配置API（首次使用必须）

访问API配置页面：http://localhost:5000/api_settings

必须配置（至少一个）：
1. 大语言模型API（用于AI文案生成）
  - 推荐：通义千问（免费额度）
  - 性价比：DeepSeek
  - 专业版：OpenAI GPT-4、Claude 3
可选配置： 2. 视觉分析模型API（用于视频内容理解）
- 推荐：通义千问VL
1. TTS语音服务（已内置Edge-TTS免费服务）
  - 专业级：Azure TTS（需付费）
  - 本地克隆：Voice Clone
第二步：选择功能模块

🎙️ 原创解说剪辑

完整流程：
1. 上传视频文件
2. 选择大语言模型（自动生成文案）
3. 选择视觉模型（分析画面内容）
4. AI自动生成解说文案
5. 选择音色并配音
6. 调整参数（可选）：
  - 多模态特征提取（6个参数）
  - 时间轴优化（4个参数）
  - 技术性能优化（4个参数）
  - 跨平台适配（6个参数）
7. 一键导出成品视频
高级配置：52个配置项可精细调优

✂️ 混剪模式

两种模式：
1. 大众混剪模式
  - 批量导入视频素材
  - AI智能识别精彩片段
  - 选择混剪风格（燃向/治愈/搞笑等）
  - 自动添加转场和特效
  - 导出混剪视频
2. 音乐卡点混剪
  - 上传音乐文件
  - 自动节奏检测（4种算法）
  - 卡点匹配策略（4种）
  - 智能片段选择与排序
  - 自动对齐音乐节拍
高级配置：34个配置项

🔊 AI配音

使用流程：
1. 输入文本内容
2. 选择TTS引擎：
  - Edge-TTS（推荐，免费，23+音色）
  - Google TTS（免费，100+语言）
  - Azure TTS（专业级，需付费）
  - Voice Clone（本地语音克隆）
3. 选择音色和语言
4. 调整基础参数（语速/音调/音量）
5. 高级配置（可选）：
  - TTS声学模型（5种）
  - 声码器配置（5种）
  - 韵律预测（8个参数）
  - 情感TTS（12个参数）
  - 说话人嵌入（8个参数）
  - 音频特征提取（8个参数）
6. 实时预览效果
7. 导出高质量音频
高级配置：38个配置项（30个AI配置）

⚠️ 常见问题

问题1：启动失败 – Python未安装

症状：提示”未找到Python”

解决方案：
1. 访问：https://www.python.org/downloads/
2. 下载Python 3.9-3.11版本
3. 安装时勾选”Add Python to PATH”
4. 重新运行启动文件
问题2：端口被占用

症状：提示”端口5000已被占用”

解决方案：
1. 启动时选择[Y]自动释放端口
2. 或手动关闭占用进程：netstat -ano | findstr “:5000” taskkill /F /PID [进程ID]
问题3：依赖包缺失

症状：启动失败，提示模块未找到

解决方案：
1. 运行”安装AI依赖.bat”完整安装
2. 或启动时选择[1]快速安装
3. 手动安装：pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/
问题4：AI功能无法使用

症状：无法生成文案/无法配音

解决方案：
1. 检查API配置：访问 http://localhost:5000/api_settings
2. 确保至少配置了一个大语言模型API
3. 点击”测试”按钮验证API是否有效
4. 查看API密钥是否正确
问题5：启动后无法访问

症状：浏览器打开但无法加载页面

解决方案：
1. 检查防火墙设置
2. 确认端口5000未被其他程序占用
3. 尝试手动访问：http://127.0.0.1:5000
4. 查看启动窗口的错误信息
项目地址

不过需要注意，看项目issue提示，作者给的文件，还是自己的电脑配置包，更多好需要自行研究

https://github.com/jianjieyiban/JJYB_AI_VideoAutoCut
2025年12月28日

分类： 人工智能

网站截图

网站特色

AI 视频生成器

AI 图像生成器

网站链接

项目简介

项目截图

在线体验

✨ 核心特性

🧠 深度多智能体架构 (Deep Reasoning)

👁️ 全链路可视化

⚙️ 精细化控制

🛠️ 现代化工程体验

⚙️ 快速开始

1. 克隆项目

2. 安装依赖

3. 配置环境

4. 启动开发服务器

项目地址

网站截图

工具特色

🎙️配音（AI）

来源于字幕的时间码与说话人分配

语速与音调微调

导出：音轨与成品视频

术语库与自学习 AI

音频优化

📝字幕（AI）

网站地址

网站介绍

截图

特色

获取链接

项目截图

功能特性

快速开始

1. 安装依赖

2. 配置 API Key

3. 启动开发服务器

4. 构建生产版本

使用说明

注意事项

项目地址

软件介绍

截图

核心特性

双模式工作

核心功能

快速开始

安装

配置

1. ASR 配置（至少配置一个）

阿里云 Qwen（推荐）

豆包 Doubao（可选）

硅基流动 SenseVoice（可选，免费）

2. 快捷键配置（可自定义）

3. LLM 配置（可选）

听写模式 LLM（文本润色）

AI 助手模式 LLM（必需）

4. 系统设置（可选）

5. 保存并启动

📖 使用指南

听写模式

按住模式（传统方式）

松手模式（防误停）

AI 助手模式

Q&A 模式（无选中文本）

文本处理模式（选中文本）

历史记录

软件下载

软件截图

核心特性

使用场景

软件下载

项目截图

项目安装

Windows Installer（最简单）

从以前的安装程序版本升级

从源代码安装

分类：人工智能