分类: 人工智能

强大的AI推荐

  • picoo:AI创作,一站搞定,集成Veo、Gemini等顶级AI模型,视频图像创作更快更专业

    AI创作图片,视频,集成到一个站点,方便操作,同时网站为所有用户提供每日免费额度。无需信用卡即可立即开始创作

    网站截图

    网站特色

    所有顶级AI视频和图像模型,尽在一处!

    AI 视频生成器

    一站集成所有顶级视频模型

    Veo 3Veo 2Sora 2Kling AISedarceWan AIAI 视频生成器

    AI 图像生成器

    领先的图像模型一应俱全

    Gemini(Nano Banana)Flux AIGPT-imageSeedreamFlux KontextQwen ImageWan AIAI 图像生成器

    网站链接

    https://picooai.com/zh-CN

  • Prisma:基于 Gemini 3 的开源可视化深度多智能体推理引擎,支持动态规划、思维链可视化和多会话管理

    项目简介

    Prisma 是一款探索 Google Gemini 3.0 推理极限的实验性应用。它不仅仅是一个聊天机器人,更是一个可视化的思维实验室

    它引入了 “深度多智能体推理 (Deep Multi-Agent Reasoning)” 架构,将复杂的用户问题动态分解为子任务,分派给专门的 AI 专家角色并行处理。用户可以实时观看 AI 如何通过 Manager(规划) -> Experts(执行) -> Synthesis(综合) 的工作流来解决复杂问题。

    项目截图

    在线体验

    无需部署,直接体验 Prisma 的强大推理能力:

    平台入口说明
    Google AI Studio🚀 立即运行推荐。直接登录 Google 账号即可免费使用,无需配置 API Key,开箱即用。
    Web 演示版🌐 访问网页纯前端版本,需要填写您自己的 Google API Key 才能运行。

    ✨ 核心特性

    🧠 深度多智能体架构 (Deep Reasoning)

    • 动态规划 (Manager Agent):根据用户的问题,智能分析并决定需要哪些领域的“专家”介入。
    • 并行专家池 (Expert Pool):系统会自动生成专门的 AI 角色(如“逻辑学家”、“代码架构师”、“历史研究员”),它们并行工作,互不干扰。
    • 递归优化 (Recursive Refinement)
      • 自省循环:Manager 会审查专家的输出。如果发现逻辑漏洞或信息缺失,会自动驳回并启动下一轮修正(支持最多 3 轮迭代)。
      • 最终综合:将分散的专家意见汇聚成一篇逻辑严密、内容详实的最终回复。

    👁️ 全链路可视化

    • 思维流 (Process Flow):通过动态节点图展示当前的推理状态(Analyzing -> Working -> Reviewing -> Synthesizing)。
    • 透明化思考:你可以点开每一个“专家卡片”,查看其私有的 Internal Monologue (内部独白) 和 Draft Output (草稿)
    • 实时计时器:精确追踪每个环节的耗时,了解 AI 的时间分配。

    ⚙️ 精细化控制

    • 思考预算 (Thinking Budget)
      • 支持为 规划执行综合 三个阶段分别设置思考深度(Minimal, Low, Medium, High)。
      • 这决定了模型在生成 Token 时分配给 “Thinking” 字段的配额。
    • 模型切换:无缝切换 Gemini 3 Flash (速度优先) 和 Gemini 3 Pro (深度优先)。

    🛠️ 现代化工程体验

    • 自定义 API 网关:支持配置 Custom Base URL,方便国内用户通过反向代理连接。
    • Markdown & LaTeX:完美渲染复杂的数学公式、代码块和图表。
    • 本地优先:所有会话历史存储在浏览器 LocalStorage 中,保护隐私。

    ⚙️ 快速开始

    1. 克隆项目

    git clone https://github.com/yeahhe365/Prisma.git
    cd Prisma

    2. 安装依赖

    npm install

    3. 配置环境

    在项目根目录创建 .env.local 文件并填入你的 API Key:

    GEMINI_API_KEY=your_api_key_here

    4. 启动开发服务器

    npm run dev

    访问 http://localhost:3000 即可开始推理。

    项目地址

    https://github.com/yeahhe365/Prisma

  • subvideo:AI配音与AI字幕制作,字幕翻译合三为一,修改字幕、翻译与导出一气呵成

    几分钟内创建 AI 配音和字幕。语音库、精准字幕时间轴,导出为音频或视频

    无论是社媒发布、专业剪辑还是无障碍场景,导出格式覆盖所有需求。简单、灵活、随处可用

    网站截图

    工具特色

    🎙️AI 配音:选择声音,调节语速与音调。导出为音轨或成品视频。

    📝自动字幕:精准转录与干净时间码。导出 SRT/ASS,或直接烧录进视频。

    🌍翻译:将你的字幕翻译成 40 多种语言,或直接将整个视频配上自然的 AI 配音。时间轴将保持同步。

    🔥烧录(硬字幕):将字幕与/或配音固定到视频中——非常适合 YouTube、Shorts 与 Reels。

    🎙️配音(AI)

    声音库与多语言

    40+ 语言的自然 AI 声音——支持搜索、分类与预览。

    来源于字幕的时间码与说话人分配

    从字幕获得干净口型同步,为每位说话人分配声音——同步且一致。

    语速与音调微调

    数秒内调整声音、语速与音调——自然且贴合内容。

    导出:音轨与成品视频

    可导出为独立音轨——或直接渲染带配音的视频。

    术语库与自学习 AI

    保持术语一致——品牌名与技术词汇准确发音。

    音频优化

    降噪与电平控制——获得干净清晰的输出。


    📝字幕(AI)

    🤖AI 驱动的字幕生成器

    数秒内生成字幕——精准、多语言、时间码干净。

    🗂️带时间轴的字幕工作室

    可视化编辑、设定样式并与音频同步——就像 Premiere/Final Cut。

    🔥烧录字幕(硬字幕)

    将字幕固定进视频——包含位置、安全区、边距与字体设置。

    🎨行内编辑与样式

    逐行编辑文本、字体、颜色、说话人标签等。

    🌍一键翻译

    70+ 语言即可导出——保留时间码与可读性。

    📦多格式导出

    SRT、ASS、DOCX、JSON、CSV 等——一键下载。

    🚪访客模式上传

    无需账户即可创建字幕。稍后注册即可无限保存。

    👥AI 说话人识别

    自动识别说话人,并为每人分配专属样式以提升可读性。

    网站地址

    https://subvideo.ai/zh

  • AIART PICS:AI 图像生成提示词灵感库,全网最大的 Nano Banana 提示词库!汇聚 900+ 位全球创作者的3200+ 精选案例

    网站介绍

    AIART PICS:AI 图像生成提示词网站,精选 3000+ Gemini、ChatGPT、Midjourney、Stable Diffusion 提示词。涵盖摄影、插画、3D 渲染、UI 设计、创意海报等 20+ 个专业领域,全方位展示 Google 图像生成模型的无限可能。每个案例都经过人工筛选,确保质量和实用性。

    点击案例即可复制提示词使用。

    截图

    特色

    • 🏆 规模最大 – 3200+ 提示词,900+ 位创作者,持续增长
    • ✅ 质量保证 – 所有案例都是真实生成结果,附带原图展示
    • 🎯 即用即学 – 每个提示词都可直接复制使用,快速上手
    • � 每日更新 – 自动化收集最新优质案例,保持时效性
    • � 双语支持 – 中英文双语界面,服务全球用户
    • 🔗 完整溯源 – 每个案例都附带原始来源,尊重创作者

    获取链接

    网站地址:https://aiart.pics/

    项目地址:https://github.com/Jermic/awesome-aiart-pics-prompts

  • YouMedHub:一个基于 AI的视频分析、剪辑工具,利用AI快速分析生成视频脚本


    AI 视频内容分析,基于 Vue 3 + TypeScript 的智能视频分析应用,使用阿里云通义千问视觉模型自动分析视频内容,生成详细的脚本拆解表格。

    对于短视频的分析效果很好,速度很快,直接生成视频脚本,自动化拆解分析视频

    项目截图

    功能特性

    • 📹 视频分析:上传视频或提供视频 URL,AI 自动分析视频内容
    • 📊 脚本拆解:生成包含景别、运镜、画面内容、口播等详细信息的结构化表格
    • 🎬 视频片段预览:鼠标悬停即可播放对应时间段的视频片段
    • 🔐 安全存储:API Key 本地存储,保护隐私
    • 🎯 实时流式输出:Markdown 流式显示,所见即所得
    • 📈 Token 统计:实时显示输入/输出/总计 Token 使用量

    快速开始

    1. 安装依赖

    pnpm install

    2. 配置 API Key

    获取阿里云 DashScope API Key:https://help.aliyun.com/zh/model-studio/get-api-key

    方式一:在应用界面配置(推荐)

    • 启动应用后点击右上角”配置 API Key”按钮

    方式二:环境变量配置

    cp .env.example .env
    # 编辑 .env 文件,填入你的 API Key

    3. 启动开发服务器

    pnpm dev

    4. 构建生产版本

    pnpm build

    使用说明

    1. 启动应用后,点击上传区域选择视频文件(支持 MP4、MOV、AVI 等格式,最大 100MB)
    2. 点击”开始分析”按钮,等待 AI 分析完成
    3. 查看分析结果表格,鼠标悬停视频片段可预览播放

    注意事项

    • 视频文件最大支持 100MB
    • 视频使用浏览器直传到阿里云 OSS(无需经过服务器,节省带宽)
    • 视频内容需通过安全检查才能分析
    • API 调用需要有效的阿里云 DashScope API Key
    • 需要配置阿里云 OSS 环境变量(详见 .env.example

    项目地址

    github:https://github.com/kociii/youmedhub

    网站:https://www.youmedhub.com/

  • PushToTalk – 语音输入助手,按住快捷键说话,松开自动转录并插入文本,AI 智能助手,语音控制一切

    PushToTalk 是一个高性能的桌面语音输入工具,集成了大语言模型(LLM)能力。支持两种工作模式

    1. 听写模式:按住 Ctrl+Win 说话,松开后自动转录并插入文本,支持 LLM 智能润色
    2. AI 助手模式:选中文本后按 Alt+Space 说话,用语音命令处理选中的文本;或直接提问获得答案

    软件介绍

    PushToTalk 是一个高性能的桌面语音输入工具。它不仅仅是一个语音转文字工具,更集成了大语言模型(LLM)能力。你可以按住 Ctrl+Win 说话,松开后应用会自动将你的语音转为文字,并根据你的设定进行润色、翻译或整理成邮件,最后自动粘贴到当前光标位置。支持豆包/千问

    截图

    核心特性

    双模式工作

    • 🎤 听写模式 – 传统的语音转文字功能
      • 按住模式:按住快捷键录音,松开停止(传统方式)
      • 松手模式:按一次 F2 开始录音,再按一次结束(防止误停)
    • 🤖 AI 助手模式 – 语音控制文本处理
      • 无选中文本:Q&A 模式,提问获得答案
      • 选中文本:语音命令处理文本(翻译、润色、总结、扩写等)

    核心功能

    • ⚡ 实时流式转录 – WebSocket 边录边传,极低延迟(< 500ms),松手即出字
    • 🧠 LLM 智能后处理 – 内置”文本润色”、”邮件整理”、”中译英”等预设,支持自定义 Prompt
    • ⌨️ 自定义快捷键 – 支持 73 种按键绑定(修饰键、字母、数字、功能键、方向键等)
    • 🔄 多 ASR 引擎 – 支持阿里云 Qwen、豆包 Doubao、SiliconFlow SenseVoice
    • 🛡️ 智能兜底 – 主引擎失败时自动切换到备用引擎,并行竞速
    • 🎨 可视化反馈 – 录音状态悬浮窗,实时波形显示,三种视觉状态
    • 🔊 音频反馈 – 录音开始/结束的清脆提示音,盲操也放心
    • 📜 历史记录 – 自动保存转录历史,支持搜索、复制、清空
    • 🚀 系统托盘 – 支持最小化到托盘、开机自启动
    • 🔄 自动更新 – 内置 6 个镜像源,自动检查并安装更新
    • 💾 多配置管理 – 支持保存多套 LLM 预设,通过界面快速切换不同场景

     快速开始

    安装

    1. 从 Releases 下载最新版本的安装包
    2. 运行 NSIS 安装程序完成安装
    3. 右键点击应用图标,选择”以管理员身份运行”

    ⚠️ 重要:必须以管理员身份运行才能使用全局快捷键功能

    配置

    快捷链接

    API Key申请教学文档

    1. ASR 配置(至少配置一个)

    阿里云 Qwen(推荐)

    • 超大量的免费额度,2025 年 3 月前基本用不完
    • 支持实时流式和 HTTP 两种模式
    • 获取 DashScope API Key
    豆包 Doubao(可选)

    硅基流动 SenseVoice(可选,免费)

    2. 快捷键配置(可自定义)

    听写模式

    • 默认快捷键:Ctrl + Win
    • 松手模式快捷键:F2
    • 可自定义为任意组合键(支持 73 种按键)

    AI 助手模式

    • 默认快捷键:Alt + Space
    • 可自定义为任意组合键

    3. LLM 配置(可选)

    听写模式 LLM(文本润色)

    • 用于对转录结果进行润色、翻译等后处理
    • 推荐使用免费的智谱 GLM-4-Flash
    • 获取智谱 API Key
    • 可添加多个自定义预设(文本润色、中译英、邮件整理等)
    AI 助手模式 LLM(必需)

    • 用于 AI 助手模式的文本处理和问答
    • 支持 OpenAI 兼容接口
    • 配置两个系统提示词:
      • Q&A 提示词:用于回答问题
      • 文本处理提示词:用于处理选中的文本

    4. 系统设置(可选)

    • 关闭时最小化到托盘 – 关闭窗口时保持后台运行
    • 开机自启动 – 系统启动时自动运行(需要管理员权限)

    5. 保存并启动

    点击”保存配置”并”启动助手”。


    📖 使用指南

    听写模式

    按住模式(传统方式)

    1. 将光标定位在任何输入框(微信、Word、VS Code)
    2. 按住 Ctrl + Win 键,听到”滴”声后开始说话
    3. 说完松开按键,听到结束提示音
    4. 等待处理(悬浮窗显示处理状态),文本将自动打字上屏

    松手模式(防误停)

    1. 将光标定位在输入框
    2. 按一次 F2 键(可自定义),听到”滴”声后开始说话
    3. 说话时手可以松开,防止长时间说话时误停
    4. 说完后再按一次 F2 键,听到结束提示音
    5. 等待处理,文本将自动打字上屏

    松手模式悬浮窗

    • 蓝色药丸状态,中间显示迷你波形
    • 左边 ❌ 按钮:取消录音
    • 右边 ✓ 按钮:结束录音并转录
    • 60 秒超时自动取消

    AI 助手模式

    Q&A 模式(无选中文本)

    1. 将光标定位在输入框
    2. 按住 Alt + Space 键(可自定义),说出你的问题
    3. 例如:”What is the capital of France?”
    4. 松开按键,LLM 将自动回答并插入答案

    文本处理模式(选中文本)

    1. 在任何应用中选中一段文本
    2. 按住 Alt + Space 键,说出你的命令
    3. 常用命令示例:
      • “翻译成英文” – 将选中的中文翻译成英文
      • “润色一下” – 优化选中的文本
      • “总结一下” – 生成摘要
      • “扩写成三段” – 扩展内容
      • “添加注释” – 为代码添加注释
    4. 松开按键,LLM 将处理选中的文本并替换

    历史记录

    在主界面的”历史记录”标签页可查看所有转录记录:

    • 显示转录文本、时间、模式
    • 支持搜索功能
    • 点击复制按钮快速复制
    • 一键清空所有历史

    软件下载

    github:https://github.com/yyyzl/push-2-talk/releases/

    使用教程

  • 西瓜说:离线AI语音输入,对你的语音输入进行翻译、转写、润色等处理

    只需说出你的想法,系统会自动加工成专业、得体的文字输出,帮你轻松应对各种场景

    在应用设置中,你可以创建多个自定义人设模板。每个模板可以设定不同的风格和语气,比如专业助手、幽默段子手、会议记录员等。使用时快速切换,满足不同场景的需求。

    正在全力适配更多平台,优先选择了 Apple Silicon 是因为其优秀的性能能够更好地支持本地 AI 模型运行。Windows 和 Linux 版本正在开发中,敬请期待

    AI 模型经过优化,占用空间约 900 MB,相比带来的离线体验,这个代价是完全值得的。离线识别 + 在线精修,灵活使用。

    软件截图

    核心特性

    为创作者打造,让每一次语音输入都成为灵感的延伸

    本地二次转写:首次输出极快,二次优化精确。相同模型更优工程,离线情况下对实时识别内容二次优化,大大提升输出体验。

    AI 智能精修:支持标准 OpenAI 接口,一键翻译、转写、润色。说出你的想法,自动加工成专业话语。

    自定义人设:打造专属转写风格,百变星君就是你。随时切换,适应各种场景需求。

    使用场景

    从灵感闪现到专业输出,一站式搞定

    工作报告:语音转文字 + AI 润色,快速生成专业报告

    跨语言沟通:一键翻译,突破语言障碍

    社交互动:随时切换人设,让表达恰到好处

    软件下载

    下载安装包后直接安装即可,首次使用会自动下载 AI 模型。使用时按住快捷键(默认为 Fn)即可启动语音输入,松开后即可输入到任意文本框。在设置中配置 OpenAI 接口即可使用精修功能。

    官网地址:https://xiguasay.qwenkimi.com/

  • WhisperJAV:一款生成日本*人视频字幕的AI字幕生成器,支持 DeepSeek(价格低廉)、Gemini(免费版)、Claude、GPT-4 和 OpenRouter。

    WhisperJAV不多介绍,通过AI给视频配字幕的工具,可以接入各种AI,是新鲜字幕自动生成,针对性优化,效果很好

    项目截图

    项目安装

    Windows Installer(最简单)

    下载并运行:WhisperJAV-1.7.4-Windows-x86_64.exe

    这会安装所有必需的软件,包括 Python 及其依赖项。

    从以前的安装程序版本升级

    如果您是通过 Windows 安装程序安装的 v1.5.x 或 v1.6.x 版本:

    1. 下载upgrade_whisperjav.bat
    2. 双击运行
    3. 等待1-2分钟

    这样就可以在不重新下载 PyTorch(约 2.5GB)或 AI 模型(约 3GB)的情况下更新 WhisperJAV。

    从源代码安装

    需要 Python 3.9-3.12、FFmpeg 和 Git。

    推荐:使用安装脚本(自动处理依赖冲突,自动检测 GPU):视窗

    git clone https://github.com/meizhong986/whisperjav.git
    cd whisperjav
    installer\install_windows.bat              # Auto-detects GPU and CUDA version
    installer\install_windows.bat --cpu-only   # Force CPU only
    installer\install_windows.bat --cuda118    # Force CUDA 11.8
    installer\install_windows.bat --cuda124    # Force CUDA 12.4
    installer\install_windows.bat --minimal    # Minimal install (no speech enhancement)
    installer\install_windows.bat --dev        # Development/editable install

    脚本会自动执行以下操作:

    • 检测您的 NVIDIA GPU 并选择最佳 CUDA 版本
    • 如果未找到 GPU,则回退到仅使用 CPU。
    • 检查 WebView2 运行时(GUI 需要)
    • 安装日志install_log_windows.txt
    • 下载失败后最多重试 3 次

    Linux / macOS

    # Install system dependencies first (Linux only)
    # Debian/Ubuntu:
    sudo apt-get install -y python3-dev build-essential ffmpeg libsndfile1
    
    # Fedora/RHEL:
    sudo dnf install python3-devel gcc ffmpeg libsndfile
    
    git clone https://github.com/meizhong986/whisperjav.git
    cd whisperjav
    chmod +x installer/install_linux.sh
    ./installer/install_linux.sh               # Auto-detects GPU
    ./installer/install_linux.sh --cpu-only    # Force CPU only
    ./installer/install_linux.sh --minimal     # Minimal install

    跨平台 Python 脚本

    git clone https://github.com/meizhong986/whisperjav.git
    cd whisperjav
    python install.py              # Auto-detects GPU, defaults to CUDA 12.1
    python install.py --cpu-only   # CPU only
    python install.py --cuda118    # CUDA 11.8
    python install.py --cuda121    # CUDA 12.1
    python install.py --cuda124    # CUDA 12.4
    python install.py --minimal    # Minimal install (no speech enhancement)
    python install.py --dev        # Development/editable install

    另一种方法:手动使用 pip 安装(可能会遇到依赖冲突):

    # Install PyTorch with GPU support first (NVIDIA example)
    pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu124
    
    # Then install WhisperJAV
    pip install git+https://github.com/meizhong986/whisperjav.git@main

    平台说明:

    • Apple Silicon(M1/M2/M3/M4):仅pip install torch torchaudio支持 MPS 加速,自动运行。
    • AMD GPU (ROCm):实验性功能。使用此功能--mode balanced可获得最佳兼容性。
    • 仅使用 CPU:可运行但速度较慢。用于--accept-cpu-mode跳过 GPU 警告。
    • Linux 服务器(无 GPU):安装脚本会自动检测并切换到仅使用 CPU 的模式。
    • Linux(Debian/Ubuntu):请先安装系统依赖项:sudo apt-get install -y python3-dev build-essential ffmpeg libsndfile1

    先决条件

    • Python 3.9-3.12(3.13+ 与 openai-whisper 不兼容)
    • 将 FFmpeg添加到系统路径中
    • 推荐显卡:NVIDIA CUDA、Apple MPS 或 AMD ROCm
    • 安装需要8GB 以上的磁盘空间

    免责声明

    此工具可生成辅助功能字幕。用户有责任遵守与其处理的内容相关的适用法律。

    项目地址

    https://github.com/meizhong986/WhisperJAV

  • DictionaryByGPT4:一本 GPT4 生成的单词书📚,超过 8000 个单词分析,涵盖了词义、例句、词根词缀、变形、文化背景、记忆技巧和小故事

    阿喵前言

    从小学开始念 ABC,到大学毕业考完 CET-4/6 级,我们学习英语的周期不可谓不长。但是由于缺乏文化背景和沉浸式的语言环境,大部分人学完考完就抛,最终只记得一些简单的词汇,说两句生硬的句子。白白浪费了大量的时间和精力,让人惋惜。

    语言本质上是文化的载体和表达交流的工具。但是在传统的教学实践中,往往关注在死记硬背、词性句法等让学习者一头雾水的方面,大大降低了他们学习语言的好奇心和使用语言的热情。

    AI用来学习语言绝对是个不错的选择。今天我们来看看 ChatGPT 在英语单词学习这个垂直领域带来的变化。

    推荐这本开源单词书。
    整本内容由 GPT-4 生成,共分析了 8000+ 高频与进阶词汇,不只是给你一个中文意思就结束。

    每个单词都会拆开来讲:常见用法、例句、词根词缀、词形变化,还会补充一些文化背景、记忆技巧,甚至配一个小故事,读起来更像在理解词,而不是背词。

    比较适合已经有一定基础、想把词汇真正“用活”的人,当作长期查阅或进阶词汇书都不错。

    希望这份 GPT 单词本可以帮你快速提高词汇量,将英语能力提升到更高水平。

    项目截图

    AI提示词

    现在 AI 可以担任专业+个性化的老师的角色,拥有完整的文化背景知识和丰富的输入输出模态,而你需要的只是一段简单的设定提示词和足够便宜的 token 消耗费用:

    # 角色
    
    你是一名中英文双语教育专家,拥有帮助将中文视为母语的用户理解和记忆英语单词的专长,请根据用户提供的英语单词完成下列任务。
    
    ## 任务
    
    ### 分析词义
    
    - 系统地分析用户提供的英文单词,并以简单易懂的方式解答;
    
    ### 列举例句
    
    - 根据所需,为该单词提供至少 3 个不同场景下的使用方法和例句。并且附上中文翻译,以帮助用户更深入地理解单词意义。
    
    ### 词根分析
    
    - 分析并展示单词的词根;
    - 列出由词根衍生出来的其他单词;
    
    ### 词缀分析
    
    - 分析并展示单词的词缀,例如:单词 individual,前缀 in- 表示否定,-divid- 是词根,-u- 是中缀,用于连接和辅助发音,-al 是后缀,表示形容词;
    - 列出相同词缀的的其他单词;
    
    ### 发展历史和文化背景
    
    - 详细介绍单词的造词来源和发展历史,以及在欧美文化中的内涵
    
    ### 单词变形
    
    - 列出单词对应的名词、单复数、动词、不同时态、形容词、副词等的变形以及对应的中文翻译。
    - 列出单词对应的固定搭配、组词以及对应的中文翻译。
    
    ### 记忆辅助
    
    - 提供一些高效的记忆技巧和窍门,以更好地记住英文单词。
    
    ### 小故事
    
    - 用英文撰写一个有画面感的场景故事,包含用户提供的单词。
    - 要求使用简单的词汇,100 个单词以内。
    - 英文故事后面附带对应的中文翻译。

    GPT 单词本

    基于这套提示词,通过 GPT-4 接口,将涵盖中考、高考、大学四六级的超过 8000 个单词全部分析一遍,最终产出了 GPT 单词本

    每个单词分析都涵盖了词义、例句、词根词缀、变形、文化背景、记忆技巧和小故事,通过全方位的介绍让你理解单词的来龙去脉和使用情景。

    单词书下载

    github:https://github.com/Ceelog/DictionaryByGPT4

    在线pdf:https://ceelog.github.io/DictionaryByGPT4/

  • JJYB_AI 智剪 – 智能视频自动剪辑与AI解说工具(离线TTS、原创解说、混剪、AI配音)

    JJYB_AI智剪 v2.0 是一个功能完整、配置丰富、文档齐全的专业AI视频编辑工具:

    • 🚀 一键启动:智能检查,自动配置
    • 🤖 19个AI模型:全面支持主流模型
    • ⚙️ 143个配置项:专业级精细调优
    • 📚 16个技术文档:完整技术体系
    • 🎯 100%完成度:所有功能完整实现

    让AI视频创作更简单、更专业! 🎬✨🚀

    ⭐ 三大核心功能

    🎬 视频编辑器

    • 🎯 完整播放控制 + 轨道管理
    • ⚡ 音画/字画/字音三重同步 (<100ms)
    • ✨ 特效、滤镜、转场完整支持
    • 📍 URL: http://localhost:5000/

    🎙️ AI配音

    • 🔊 多引擎TTS (Edge-TTS/gTTS/voice_clone)
    • 🎵 丰富音色库 + 声音克隆
    • 🎛️ 实时参数调节
    • 📍 URL: http://localhost:5000/voiceover

    📝 原创解说

    • 🤖 AI视觉理解 → LLM文案 → TTS配音 → 视频合成
    • 🔗 完整自动化流程
    • 🎯 精确同步机制
    • 📍 URL: http://localhost:5000/commentary

    🤖 AI模型支持

    大语言模型(9种)

    • ✅ 通义千问 (阿里巴巴) – 推荐
    • ✅ 文心一言 (百度)
    • ✅ ChatGLM (智谱AI)
    • ✅ DeepSeek – 性价比高
    • ✅ OpenAI GPT-4/GPT-3.5 – 专业版
    • ✅ Claude 3 (Anthropic) – 高级推理
    • ✅ Google Gemini – 多模态
    • ✅ 月之暗面 Kimi – 长文本
    • ✅ 讯飞星火 (科大讯飞)

    视觉分析模型(6种)

    • ✅ 通义千问VL – 推荐
    • ✅ 百度视觉
    • ✅ 腾讯云视觉
    • ✅ GPT-4V (OpenAI Vision)
    • ✅ Gemini Vision (Google)
    • ✅ Claude Vision (Anthropic)

    语音TTS模型(4种)

    • ✅ Edge-TTS – 免费推荐(23+音色)
    • ✅ Google TTS (gTTS) – 免费多语言
    • ✅ Azure TTS – 专业级(付费)
    • ✅ Voice Clone – 本地语音克隆

    ℹ️ 内置回退:已集成 pyttsx3(离线),在网络受限时会自动回退以保证配音可用。


    🏗️ 技术架构

    ┌─────────────────────────────────────────┐
    │          前端层 (Frontend)              │
    │  Flask 3.0 + Socket.IO + 现代化UI       │
    └─────────────────────────────────────────┘
                        ↓
    ┌─────────────────────────────────────────┐
    │          AI引擎层 (Backend)             │
    │  • 视觉分析 (6种模型)                   │
    │  • 文案生成 (9种大语言模型)             │
    │  • 语音合成 (4种TTS引擎)                │
    │  • 音频处理 (Whisper/Librosa)           │
    └─────────────────────────────────────────┘
                        ↓
    ┌─────────────────────────────────────────┐
    │        视频处理层 (Processing)          │
    │  FFmpeg + MoviePy + OpenCV              │
    └─────────────────────────────────────────┘
                        ↓
    ┌─────────────────────────────────────────┐
    │         数据层 (Database)               │
    │  SQLite + 项目管理 + 素材管理           │
    └─────────────────────────────────────────┘
    

    📁 项目结构

    JJYB_AI智剪/
    ├── 启动应用.bat               # ⭐ 一键启动脚本(推荐入口)
    ├── check_system.py           # 🔍 系统检查与依赖检测
    ├── init_test_data.py         # 📊 初始化测试数据
    ├── requirements.txt          # 📋 Python 依赖清单
    ├── README.md                 # 📖 项目说明(本文件)
    ├── START_HERE.md             # 🚀 快速入口指南
    ├── frontend/                 # 🎨 前端 Web 与桌面界面
    │   ├── app.py               # Flask 主应用入口(含 WebSocket)
    │   ├── templates/           # HTML 模板(核心业务页面 + 公共模板)
    │   │   ├── index.html       # 视频编辑器首页
    │   │   ├── commentary.html  # 原创解说页面
    │   │   ├── remix.html       # 混剪模式页面
    │   │   ├── voiceover.html   # AI 配音页面
    │   │   ├── settings.html    # 设置与 API 配置页面
    │   │   ├── projects.html    # 项目管理页面
    │   │   └── ...              # 其他页面(404/500/AI 功能等)
    │   └── static/              # 静态资源(CSS/JS/图片/字体等)
    ├── backend/                 # 🤖 后端服务与 AI 引擎
    │   ├── api/                 # API 路由与接口
    │   ├── engine/              # AI 引擎与音视频处理核心
    │   ├── services/            # 业务服务层(解说/混剪/配音等)
    │   ├── config/              # 后端配置(AI/路径等)
    │   ├── database/            # 数据库访问与会话管理
    │   ├── prompts/             # 提示词模板与系统提示
    │   ├── utils/               # 通用工具函数与日志
    │   ├── core/                # 核心启动与调度逻辑
    │   └── assets/              # 资源与示例文件
    ├── config/                  # ⚙️ 全局配置(INI/路径等)
    ├── database/                # 💾 数据库文件
    ├── logs/                    # 📁 运行日志
    ├── resource/                # 📦 AI 模型与模板资源
    ├── uploads/                 # 📥 用户上传文件
    ├── output/                  # 📤 导出结果文件
    ├── tests/                   # ✅ 自动化测试
    ├── 开发文档/                # 📚 完整开发文档
    │   ├── README.md           # 开发文档说明
    │   ├── 文档索引.md
    │   ├── JJYB_AI智剪_完整开发文档.md
    │   ├── JJYB_AI智剪_完整开发文档_Part2.md
    │   └── JJYB_AI智剪_完整开发文档_Part3.md
    └── yolov8n.pt               # 🎯 YOLOv8 模型权重(目标检测)

    📖 详细使用说明

    第一步:配置API(首次使用必须)

    访问API配置页面:http://localhost:5000/api_settings

    必须配置(至少一个)

    1. 大语言模型API(用于AI文案生成)
      • 推荐:通义千问(免费额度)
      • 性价比:DeepSeek
      • 专业版:OpenAI GPT-4、Claude 3

    可选配置: 2. 视觉分析模型API(用于视频内容理解)

    • 推荐:通义千问VL
    1. TTS语音服务(已内置Edge-TTS免费服务)
      • 专业级:Azure TTS(需付费)
      • 本地克隆:Voice Clone

    第二步:选择功能模块

    🎙️ 原创解说剪辑

    完整流程

    1. 上传视频文件
    2. 选择大语言模型(自动生成文案)
    3. 选择视觉模型(分析画面内容)
    4. AI自动生成解说文案
    5. 选择音色并配音
    6. 调整参数(可选):
      • 多模态特征提取(6个参数)
      • 时间轴优化(4个参数)
      • 技术性能优化(4个参数)
      • 跨平台适配(6个参数)
    7. 一键导出成品视频

    高级配置:52个配置项可精细调优

    ✂️ 混剪模式

    两种模式

    1. 大众混剪模式
      • 批量导入视频素材
      • AI智能识别精彩片段
      • 选择混剪风格(燃向/治愈/搞笑等)
      • 自动添加转场和特效
      • 导出混剪视频
    2. 音乐卡点混剪
      • 上传音乐文件
      • 自动节奏检测(4种算法)
      • 卡点匹配策略(4种)
      • 智能片段选择与排序
      • 自动对齐音乐节拍

    高级配置:34个配置项

    🔊 AI配音

    使用流程

    1. 输入文本内容
    2. 选择TTS引擎:
      • Edge-TTS(推荐,免费,23+音色)
      • Google TTS(免费,100+语言)
      • Azure TTS(专业级,需付费)
      • Voice Clone(本地语音克隆)
    3. 选择音色和语言
    4. 调整基础参数(语速/音调/音量)
    5. 高级配置(可选):
      • TTS声学模型(5种)
      • 声码器配置(5种)
      • 韵律预测(8个参数)
      • 情感TTS(12个参数)
      • 说话人嵌入(8个参数)
      • 音频特征提取(8个参数)
    6. 实时预览效果
    7. 导出高质量音频

    高级配置:38个配置项(30个AI配置)

    ⚠️ 常见问题

    问题1:启动失败 – Python未安装

    症状:提示”未找到Python”

    解决方案

    1. 访问:https://www.python.org/downloads/
    2. 下载Python 3.9-3.11版本
    3. 安装时勾选”Add Python to PATH”
    4. 重新运行启动文件

    问题2:端口被占用

    症状:提示”端口5000已被占用”

    解决方案

    1. 启动时选择[Y]自动释放端口
    2. 或手动关闭占用进程:netstat -ano | findstr “:5000” taskkill /F /PID [进程ID]

    问题3:依赖包缺失

    症状:启动失败,提示模块未找到

    解决方案

    1. 运行”安装AI依赖.bat”完整安装
    2. 或启动时选择[1]快速安装
    3. 手动安装:pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/

    问题4:AI功能无法使用

    症状:无法生成文案/无法配音

    解决方案

    1. 检查API配置:访问 http://localhost:5000/api_settings
    2. 确保至少配置了一个大语言模型API
    3. 点击”测试”按钮验证API是否有效
    4. 查看API密钥是否正确

    问题5:启动后无法访问

    症状:浏览器打开但无法加载页面

    解决方案

    1. 检查防火墙设置
    2. 确认端口5000未被其他程序占用
    3. 尝试手动访问:http://127.0.0.1:5000
    4. 查看启动窗口的错误信息

    项目地址

    不过需要注意,看项目issue提示,作者给的文件,还是自己的电脑配置包,更多好需要自行研究

    https://github.com/jianjieyiban/JJYB_AI_VideoAutoCut