分类：人工智能

强大的AI推荐

Z-Image 造相-阿里开源的快速文生图模型，拥有60 亿个参数，轻松适配16G 显存的消费级设备
项目介绍

Z-Image 是一款功能强大且高效的图像生成模型，拥有60 亿个参数。目前有三种变体：
- 🚀 Z-Image-Turbo – Z-Image 的精简版，仅需8 次函数评估 (NFE)，即可达到甚至超越领先竞争对手的性能。它在企业级 H800 GPU 上可实现⚡️亚秒级推理延迟⚡️，并能轻松适配16G 显存的消费级设备。它在照片级图像生成、双语文本渲染（中英文）以及强大的指令执行能力方面表现卓越。
- 🧱 Z-Image-Base – 未经精简的基础模型。通过发布此版本，我们旨在充分释放社区驱动的微调和自定义开发的潜力。
- ✍️ Z-Image-Edit – Z-Image 的一个衍生版本，专为图像编辑任务而优化。它支持创意图像到图像的生成，并具备强大的指令跟随功能，允许根据自然语言提示进行精确编辑。
展示

📸照片级真实感：Z-Image-Turbo能够生成逼真的照片级图像，同时保持优异的美学品质。

📖精准的双语文本渲染：Z-Image-Turbo擅长精准渲染复杂的中文和英文文本。

💡 提示增强和推理：提示增强器赋予模型推理能力，使其能够超越表面描述并挖掘潜在的世界知识。

🧠创意图像编辑：Z-Image-Edit对双语编辑指令有很强的理解力，能够进行富有想象力和灵活的图像变换。

🏗️ 模型架构

我们采用了一种可扩展的单流数字图像处理（S3-DiT）架构。在该架构中，文本、视觉语义标记和图像VAE标记在序列级别上连接起来，作为统一的输入流，与双流方法相比，最大限度地提高了参数效率。

项目链接

模型下载

⏬ 下载
```
pip install -U huggingface_hub
HF_XET_HIGH_PERFORMANCE=1 hf download Tongyi-MAI/Z-Image-Turbo
```
开源地址

https://github.com/Tongyi-MAI/Z-Image

demo

Hugging Face昨天还可以，今天就删了，大家用来生成色图，导致最开始没限制的模型demo，开始限制，到现在直接删了

modelscope魔搭：https://www.modelscope.cn/aigc/imageGeneration?tab=advanced&versionId=469191&modelType=Checkpoint&sdVersion=Z_IMAGE_TURBO&modelUrl=modelscope%3A%2F%2FTongyi-MAI%2FZ-Image-Turbo%3Frevision%3Dmaster
2025年12月1日
闪电说：AI语音输入法，比打字快 4 倍，完全免费，无需注册

软件介绍

AI 对话、AI 编程、文档创作、聊天回复，所有应用都支持语音输入，智能语音输入，让文字输入更高效
只需几步简单设置，即可开始使用，支持windows和macOS

刚安装打开需要下载一个890M的语音识别模型，完成后即可离线使用AI语音识别

软件截图

特色功能

毫秒级响应

本地AI，快速准确

绝对隐私

数据不离开设备

AI 纠错

理解语义，智能优化表达

软件下载

官网地址：https://daiti.ai/

新官网：https://shandianshuo.cn/

2025年11月13日
realdubbing – 免费文本转语音生成器，AI语音将文本转换为自然、高质量的语音
免费AI文本转语音，将您的文本转换为自然语音 – 无限制，无需注册！

AI 文本转语音工具，支持 50 多种语言和 300 多种不同的 AI 声音，最多支持 10000 字，支持声音试听和预览播放，且可使用停顿标签控制语音节奏，完全免费，无需注册。

触手可及的逼真AI语音 RealDubbing，从任何文本生成高质量、听起来自然的音频。我们的免费TTS服务非常适合内容创作者、教育工作者和企业。无需注册，没有限制。

免费无限，自然AI语音，多语言，即时下载

网站介绍

截图

特色

满足您所有语音需求的强大功能

探索使RealDubbing成为最佳免费文本转语音平台的工具。

完全免费，享受无限制的文本转语音生成，包括我们所有的声音和语言，无需任何费用。没有隐藏费用，无需信用卡。

高品质AI语音，访问庞大的自然逼真AI语音库。从300多种选项中为您的内容找到完美的音调和口音。

多语言支持，通过将文本转换为50多种语言和方言的语音，覆盖全球受众，从英语和西班牙语到普通话和阿拉伯语。

语音定制，通过调整语速和音高来微调您的音频。添加停顿，为您的脚本创造完美的表达方式。

SSML支持，利用语音合成标记语言（SSML）对发音、重音和语调进行高级控制。

即时音频下载，立即以MP3格式生成并下载您的音频文件。无需等待，没有水印，只有干净的音频可供使用。

操作步骤

通过我们直观的流程，在几秒钟内将文本转换为高质量音频。
- 输入您的文本，在文本框中键入或粘贴您的脚本。每次生成最多可使用10,000个字符。
- 选择语音和设置，从我们丰富的库中选择一种语言和一种声音。根据您的喜好调整速度和音高。
- 生成和下载，点击生成按钮创建您的音频。预览它并免费下载MP3文件。
网站地址

链接：https://realdubbing.com/zh
2025年11月2日
AI Doctor：AI 医疗会诊面板，纯前端多医生 AI 会诊模拟系统，让AI帮你分析会诊病情病因
AI现在真的强大，用AI来看病会诊也是个不错的方向，开发者DragonChenCL就开发了一套前端AI 医疗会诊面板，让AI帮你看病，配置好AI后，描述你的症状，多个AI医生参与会诊，轮流发言，互相评估，最终诊断你的病情

可添加多个由不同 LLM 驱动的医生。未填写 API Key 将使用模拟回复。本内容仅供参考，身体不适尽早就医

📖 项目简介

AI 医疗会诊面板是一个创新的医疗会诊模拟系统，通过集成多个大语言模型（LLM）扮演不同的医生角色，实现多专家协同诊断。系统采用纯前端架构，无需后端服务器，直接在浏览器中调用各大 AI 服务商的 API。

截图

特性
- 🏥 多医生协作：支持添加多个由不同 LLM 驱动的医生参与会诊
- 🤖 多模型支持：集成 OpenAI、Anthropic Claude、Google Gemini、硅基流动、魔搭社区等主流 AI 模型
- 💬 实时讨论：医生轮流发言，支持打字机效果展示
- 🗳️ 智能评估：医生互相评估彼此的诊断，自动淘汰不准确的意见
- 📊 状态监控：实时显示会诊阶段、轮次、医生状态等信息
- 💾 会话管理：自动保存会诊记录，支持多个问诊会话切换
- 🎨 美观界面：基于 Ant Design Vue 设计，界面简洁直观
- 📱 纯前端：无需服务器，所有数据保存在浏览器本地存储
使用指南

第一步：配置医生
1. 点击右上角的 “设置” 按钮
2. 在 “医生配置” 标签页中添加医生：
  - 输入医生名称（例如：Dr. GPT-4）
  - 选择供应商（OpenAI规范 / Anthropic规范 / Gemini规范 / 硅基流动 / 魔搭社区）
  - 填写对应的 API Key
  - 可选：自定义 Base URL（用于代理或私有部署）
  - 选择或输入模型名称
  - 可选：自定义医生的提示词
3. 点击 “添加医生” 按钮添加更多医生
4. 在 “问诊医生” 标签页中选择参与本次会诊的医生
第二步：输入病例信息
1. 在主页面填写病例信息：
  - 患者姓名（必填）
  - 年龄
  - 既往疾病史
  - 本次问题（必填）
2. 点击 “开始会诊” 按钮
第三步：观察会诊过程
- 医生将轮流发言，提出自己的诊断和建议
- 每轮讨论结束后，医生们会互相评估
- 被多数医生标记为”不太准确”的医生将被淘汰
- 会诊将持续到：
  - 只剩一位医生（该医生的诊断为最终答案）
  - 连续多轮无医生被淘汰（达到设定的上限）
第四步：查看最终答案

会诊结束后，系统会生成一份完整的诊断总结，包括：
- 核心诊断
- 诊断依据
- 鉴别诊断
- 检查建议
- 治疗建议
- 随访计划
- 风险提示
点击 “查看最终答案” 按钮即可查看，还可以导出为图片保存。

项目地址

github：https://dragonchencl.github.io/ai-doctor/

demo：https://dragonchencl.github.io/ai-doctor/
2025年10月30日
GenColoring ai：在线AI涂色页生成器，几秒完成照片转换成涂色页，免费使用

网站介绍

GenColoring ai，免费在线照片到着色页生成器。上传照片，在几秒钟内即可完成转换。支持下载PDF 和 PNG 格式。

支持照片转涂色页，文本生成涂色页，名字生成涂色页、涂鸦，免费在线涂色页工具，免费涂色页资源下载等功能

网站截图

网站链接

https://gencoloring.ai/

2025年10月29日
DeepSeek OCR APP- 由 DeepSeek-OCR 提供支持的 OCR Web 前端OCR程序，直接在线识别各种图像
模型介绍

DeepSeek_OCR_APP，为DeepSeek-OCR 提供支持的 OCR Web 前端OCR程序，直接在线识别各种图像，需要自行部署。

硬件：支持 CUDA 的 NVIDIA GPU，推荐：RTX 3090、RTX 4090、RTX 5090 或更高版本，最低要求：8-12GB VRAM（适用于该型号），更多的 VRAM 总是好的！

模型截图

核心功能

4 种核心 OCR 模式
- 纯文本 OCR – 从任何图像中提取原始文本
- 描述– 生成智能图像描述
- 查找– 使用视觉边界框定位特定术语
- 自由形式——针对特殊任务的自定义提示
UI 功能

🔍 多边界框支持（处理找到的术语的多个实例）

🎨 具有动画渐变的玻璃形态设计

🎯 拖放文件上传（默认最大 100MB）

🗑️ 轻松删除图像并重新上传

📦 具有适当坐标缩放的接地盒可视化

✨ 流畅的动画（Framer Motion）

📋 复制/下载结果

🎛️ 高级设置下拉菜单

📝 HTML 和 Markdown 渲染以进行格式化输出

快速配置
1. 克隆并配置：git clone <repository-url> cd deepseek_ocr_app # Copy and customize environment variables cp .env.example .env # Edit .env to configure ports, upload limits, etc.
2. 启动应用程序：docker compose up –build第一次运行将下载模型（~5-10GB），这可能需要一些时间。
3. 访问应用程序：
  - 前端：http://localhost:3000（或您配置的 FRONTEND_PORT）
  - 后端 API：http://localhost:8000（或您配置的 API_PORT）
  - API 文档：http://localhost:8000/docs
模型链接

github：https://github.com/rdumasia303/deepseek_ocr_app
2025年10月25日
FireRedTTS-2 – 面向播客和聊天机器人的AI长对话语音生成
概述

FireRedTTS‑2 是一种用于多说话人对话生成的长格式流式 TTS 系统，可提供稳定、自然的语音，具有可靠的说话人切换和上下文感知的韵律。

长对话语音合成系统，可通过提供文本和可选参考音频生成自然流畅的语音输出，支持长对话场景下的连续发言，确保语气与节奏自然连贯，支持中文、英文、日文、韩文、法文、德文及俄文，具备零样本语音克隆能力，适用于播客、聊天机器人等多发言人场景，免费开源，使用 Python 开发。

亮点🔥
- 长对话语音生成：目前支持 4 位说话者的 3 分钟对话，并且可以通过扩展训练语料库轻松扩展到更多说话者的更长对话。
- 多语言支持：支持英语、中文、日语、韩语、法语、德语、俄语等多种语言。支持零样本语音克隆，适用于跨语言和代码切换场景。
- 超低延迟：基于新的12.5Hz 流式语音标记器，我们采用了双变压器架构，该架构在文本语音交错序列上运行，从而实现了灵活的逐句生成并减少了首包延迟。具体而言，在 L20 GPU 上，我们的首包延迟低至 140ms，同时保持高质量的音频输出。
- 强稳定性：我们的模型在独白和对话测试中都实现了高相似度和低WER/CER。
- 随机音色生成：用于创建 ASR/语音交互数据。
演示

随机音色生成和多语言支持 多语言360p.mp4

零样本播客生成 聊天克隆_360p.mp4

针对特定演讲者进行精细调整的播客生成

⚠️演讲者声音：播客《肥话连篇》主持人“肥杰”和“惠子”。未经授权禁止使用。

⚠️声音来源：播客《肥话连篇》主播“肥杰”和“惠子”，尚未授权不能使用。演示_v7_360p.mp4

项目地址

github：https://github.com/FireRedTeam/FireRedTTS2
2025年10月25日
Everywhere：适用于桌面的上下文感知 AI 助手，智能响应，无缝集成多个 LLM 和 MCP 工具

软件介绍

Everywhere 是一款具有上下文感知功能的交互式 AI 助手，具有时尚、现代的用户界面和强大的集成功能。与传统的人工智能工具不同，Everywhere 可以立即感知和理解屏幕上的任何内容。无需屏幕截图、复制或切换应用程序 – 只需按快捷键即可随时随地获得所需的帮助，提供无缝的 AI 助手支持。

软件截图

特征

屏幕内容感知：智能识别当前界面内容，自动理解应用场景，随时响应操作。

多场景：支持一键提醒、网页摘要、即时翻译、邮件润色等丰富 AI 功能。

可扩展：基于 .NET 和 Avalonia，支持多种大模型和MCP工具。

无缝集成：原生桌面环境支持，键盘快捷键唤起，无需切换应用即可交互。

软件下载

项目地址：https://github.com/DearVa/Everywhere

网站地址：https://everywhere.sylinko.com/zh-CN/

2025年10月16日
LMArena AI – 找到最适合你的人工智能，通过比较顶级 AI 模型的答案，整理出AI公共排行榜

LMArena由加州大学伯克利分校的研究人员创建，是一个开放平台，每个人都可以轻松访问、探索并与世界领先的 AI 模型互动。通过并排比较这些模型并投票选出最佳模型

通过battle 去对比两个模型生成的效果。

既可以一生成图片，又可以进行对话。大家用的多的偏向于图片生成。

如何操作？

打开 lmarena ai，进入页面后找 Image Edit 或 Battle 入口，核心是“随机匹配匿名模型”，它不会告诉你使用了哪个模型去生成的图片，等你选择满意图片后才会告诉你！阿喵我试了几次，基本上让人满意的都是nano banana。左边一般是chatgpt或者谷歌gemini等

网站截图

网站链接

https://lmarena.ai/?chat-modality=image

2025年10月9日
Officeso，Office AI：AI智能办公助手，提升办公效率
软件介绍

Office AI 是一款基于 AI 的办公插件，智能办公助手，支持在 Word、Excel、PPT 及 WPS 中运行，致力于提升办公效率。

可实现一键完成数据分析、文档生成、自动图表制作、自动处理数据清理、转换、内容总结等功能，只需选中内容或输入提示词即可。

软件截图

核心功能
- AI驱动分析: 智能数据分析和处理
- 多文档支持: 处理Excel、Word和PowerPoint文件
- 外部数据集成: 导入和分析外部数据源
- 智能内容生成: 自动生成报告和摘要
- 实时辅助: 交互式聊天界面提供即时帮助
- MCP客户端集成: 已集成MCP-Client，支持MCP-Server配置
- DeepSeek增强: 已对Deepseek增强，提供更好的AI性能
下载地址

https://www.officeso.cn
2025年7月16日