分类: 人工智能

强大的AI推荐

  • Z-Image 造相-阿里开源的快速文生图模型,拥有60 亿个参数,轻松适配16G 显存的消费级设备

    项目介绍

    Z-Image 是一款功能强大且高效的图像生成模型,拥有60 亿个参数。目前有三种变体:

    • 🚀 Z-Image-Turbo – Z-Image 的精简版,仅需8 次函数评估 (NFE),即可达到甚至超越领先竞争对手的性能。它在企业级 H800 GPU 上可实现⚡️亚秒级推理延迟⚡️,并能轻松适配16G 显存的消费级设备。它在照片级图像生成、双语文本渲染(中英文)以及强大的指令执行能力方面表现卓越。
    • 🧱 Z-Image-Base – 未经精简的基础模型。通过发布此版本,我们旨在充分释放社区驱动的微调和自定义开发的潜力。
    • ✍️ Z-Image-Edit – Z-Image 的一个衍生版本,专为图像编辑任务而优化。它支持创意图像到图像的生成,并具备强大的指令跟随功能,允许根据自然语言提示进行精确编辑。

    展示

    📸照片级真实感Z-Image-Turbo能够生成逼真的照片级图像,同时保持优异的美学品质。

    📖精准的双语文本渲染Z-Image-Turbo擅长精准渲染复杂的中文和英文文本。

    💡 提示增强和推理:提示增强器赋予模型推理能力,使其能够超越表面描述并挖掘潜在的世界知识。

    🧠创意图像编辑Z-Image-Edit对双语编辑指令有很强的理解力,能够进行富有想象力和灵活的图像变换。

    🏗️ 模型架构

    我们采用了一种可扩展的单流数字图像处理(S3-DiT)架构。在该架构中,文本、视觉语义标记和图像VAE标记在序列级别上连接起来,作为统一的输入流,与双流方法相比,最大限度地提高了参数效率。

    项目链接

    模型下载

    ⏬ 下载

    pip install -U huggingface_hub
    HF_XET_HIGH_PERFORMANCE=1 hf download Tongyi-MAI/Z-Image-Turbo

    开源地址

    https://github.com/Tongyi-MAI/Z-Image

    demo

    Hugging Face昨天还可以,今天就删了,大家用来生成色图,导致最开始没限制的模型demo,开始限制,到现在直接删了

    modelscope魔搭:https://www.modelscope.cn/aigc/imageGeneration?tab=advanced&versionId=469191&modelType=Checkpoint&sdVersion=Z_IMAGE_TURBO&modelUrl=modelscope%3A%2F%2FTongyi-MAI%2FZ-Image-Turbo%3Frevision%3Dmaster

  • 闪电说:AI语音输入法,比打字快 4 倍,完全免费,无需注册

    软件介绍

    AI 对话、AI 编程、文档创作、聊天回复,所有应用都支持语音输入,智能语音输入,让文字输入更高效
    只需几步简单设置,即可开始使用,支持windows和macOS

    刚安装打开需要下载一个890M的语音识别模型,完成后即可离线使用AI语音识别

    软件截图

    特色功能

    毫秒级响应

    本地AI,快速准确

    绝对隐私

    数据不离开设备

    AI 纠错

    理解语义,智能优化表达

    软件下载

    官网地址:https://daiti.ai/

    新官网:https://shandianshuo.cn/

  • realdubbing – 免费文本转语音生成器,AI语音将文本转换为自然、高质量的语音

    免费AI文本转语音,将您的文本转换为自然语音 – 无限制,无需注册!

    AI 文本转语音工具,支持 50 多种语言和 300 多种不同的 AI 声音,最多支持 10000 字,支持声音试听和预览播放,且可使用停顿标签控制语音节奏,完全免费,无需注册。

    触手可及的逼真AI语音 RealDubbing,从任何文本生成高质量、听起来自然的音频。我们的免费TTS服务非常适合内容创作者、教育工作者和企业。无需注册,没有限制。

    免费无限,自然AI语音,多语言,即时下载

    网站介绍

    截图

    特色

    满足您所有语音需求的强大功能

    探索使RealDubbing成为最佳免费文本转语音平台的工具。

    完全免费,享受无限制的文本转语音生成,包括我们所有的声音和语言,无需任何费用。没有隐藏费用,无需信用卡。

    高品质AI语音,访问庞大的自然逼真AI语音库。从300多种选项中为您的内容找到完美的音调和口音。

    多语言支持,通过将文本转换为50多种语言和方言的语音,覆盖全球受众,从英语和西班牙语到普通话和阿拉伯语。

    语音定制,通过调整语速和音高来微调您的音频。添加停顿,为您的脚本创造完美的表达方式。

    SSML支持,利用语音合成标记语言(SSML)对发音、重音和语调进行高级控制。

    即时音频下载,立即以MP3格式生成并下载您的音频文件。无需等待,没有水印,只有干净的音频可供使用。

    操作步骤

    通过我们直观的流程,在几秒钟内将文本转换为高质量音频。

    • 输入您的文本,在文本框中键入或粘贴您的脚本。每次生成最多可使用10,000个字符。
    • 选择语音和设置,从我们丰富的库中选择一种语言和一种声音。根据您的喜好调整速度和音高。
    • 生成和下载,点击生成按钮创建您的音频。预览它并免费下载MP3文件。

    网站地址

    链接:https://realdubbing.com/zh

  • AI Doctor:AI 医疗会诊面板,纯前端多医生 AI 会诊模拟系统,让AI帮你分析会诊病情病因

    AI现在真的强大,用AI来看病会诊也是个不错的方向,开发者DragonChenCL就开发了一套前端AI 医疗会诊面板,让AI帮你看病,配置好AI后,描述你的症状,多个AI医生参与会诊,轮流发言,互相评估,最终诊断你的病情

    可添加多个由不同 LLM 驱动的医生。未填写 API Key 将使用模拟回复。本内容仅供参考,身体不适尽早就医

    📖 项目简介

    AI 医疗会诊面板是一个创新的医疗会诊模拟系统,通过集成多个大语言模型(LLM)扮演不同的医生角色,实现多专家协同诊断。系统采用纯前端架构,无需后端服务器,直接在浏览器中调用各大 AI 服务商的 API。

    截图

    特性

    • 🏥 多医生协作:支持添加多个由不同 LLM 驱动的医生参与会诊
    • 🤖 多模型支持:集成 OpenAI、Anthropic Claude、Google Gemini、硅基流动、魔搭社区等主流 AI 模型
    • 💬 实时讨论:医生轮流发言,支持打字机效果展示
    • 🗳️ 智能评估:医生互相评估彼此的诊断,自动淘汰不准确的意见
    • 📊 状态监控:实时显示会诊阶段、轮次、医生状态等信息
    • 💾 会话管理:自动保存会诊记录,支持多个问诊会话切换
    • 🎨 美观界面:基于 Ant Design Vue 设计,界面简洁直观
    • 📱 纯前端:无需服务器,所有数据保存在浏览器本地存储

    使用指南

    第一步:配置医生

    1. 点击右上角的 “设置” 按钮
    2. 在 “医生配置” 标签页中添加医生:
      • 输入医生名称(例如:Dr. GPT-4)
      • 选择供应商(OpenAI规范 / Anthropic规范 / Gemini规范 / 硅基流动 / 魔搭社区)
      • 填写对应的 API Key
      • 可选:自定义 Base URL(用于代理或私有部署)
      • 选择或输入模型名称
      • 可选:自定义医生的提示词
    3. 点击 “添加医生” 按钮添加更多医生
    4. 在 “问诊医生” 标签页中选择参与本次会诊的医生

    第二步:输入病例信息

    1. 在主页面填写病例信息:
      • 患者姓名(必填)
      • 年龄
      • 既往疾病史
      • 本次问题(必填)
    2. 点击 “开始会诊” 按钮

    第三步:观察会诊过程

    • 医生将轮流发言,提出自己的诊断和建议
    • 每轮讨论结束后,医生们会互相评估
    • 被多数医生标记为”不太准确”的医生将被淘汰
    • 会诊将持续到:
      • 只剩一位医生(该医生的诊断为最终答案)
      • 连续多轮无医生被淘汰(达到设定的上限)

    第四步:查看最终答案

    会诊结束后,系统会生成一份完整的诊断总结,包括:

    • 核心诊断
    • 诊断依据
    • 鉴别诊断
    • 检查建议
    • 治疗建议
    • 随访计划
    • 风险提示

    点击 “查看最终答案” 按钮即可查看,还可以导出为图片保存。

    项目地址

    github:https://dragonchencl.github.io/ai-doctor/

    demo:https://dragonchencl.github.io/ai-doctor/

  • GenColoring ai:在线AI涂色页生成器,几秒完成照片转换成涂色页,免费使用

    网站介绍

    GenColoring ai,免费在线照片到着色页生成器。上传照片,在几秒钟内即可完成转换。支持下载PDF 和 PNG 格式。

    支持照片转涂色页,文本生成涂色页,名字生成涂色页、涂鸦,免费在线涂色页工具,免费涂色页资源下载等功能

    网站截图

    网站链接

    https://gencoloring.ai/

  • DeepSeek OCR APP- 由 DeepSeek-OCR 提供支持的 OCR Web 前端OCR程序,直接在线识别各种图像

    模型介绍

    DeepSeek_OCR_APP,为DeepSeek-OCR 提供支持的 OCR Web 前端OCR程序,直接在线识别各种图像,需要自行部署。

    硬件:支持 CUDA 的 NVIDIA GPU,推荐:RTX 3090、RTX 4090、RTX 5090 或更高版本,最低要求:8-12GB VRAM(适用于该型号),更多的 VRAM 总是好的!

    模型截图

    All birds品种丰富色彩鲜艳,栖息在繁花似锦的春日树枝上,展现自然生态之美.
    2020年到2006年数据线性增长折线图.

    核心功能

    4 种核心 OCR 模式

    • 纯文本 OCR – 从任何图像中提取原始文本
    • 描述– 生成智能图像描述
    • 查找– 使用视觉边界框定位特定术语
    • 自由形式——针对特殊任务的自定义提示

    UI 功能

    🔍 多边界框支持(处理找到的术语的多个实例)

    🎨 具有动画渐变的玻璃形态设计

    🎯 拖放文件上传(默认最大 100MB)

    🗑️ 轻松删除图像并重新上传

    📦 具有适当坐标缩放的接地盒可视化

    ✨ 流畅的动画(Framer Motion)

    📋 复制/下载结果

    🎛️ 高级设置下拉菜单

    📝 HTML 和 Markdown 渲染以进行格式化输出

    快速配置

    1. 克隆并配置:git clone <repository-url> cd deepseek_ocr_app # Copy and customize environment variables cp .env.example .env # Edit .env to configure ports, upload limits, etc.
    2. 启动应用程序:docker compose up –build第一次运行将下载模型(~5-10GB),这可能需要一些时间。
    3. 访问应用程序:

    模型链接

    github:https://github.com/rdumasia303/deepseek_ocr_app

  • FireRedTTS-2 – 面向播客和聊天机器人的AI长对话语音生成

    概述

    FireRedTTS‑2 是一种用于多说话人对话生成的长格式流式 TTS 系统,可提供稳定、自然的语音,具有可靠的说话人切换和上下文感知的韵律。

    长对话语音合成系统,可通过提供文本和可选参考音频生成自然流畅的语音输出,支持长对话场景下的连续发言,确保语气与节奏自然连贯,支持中文、英文、日文、韩文、法文、德文及俄文,具备零样本语音克隆能力,适用于播客、聊天机器人等多发言人场景,免费开源,使用 Python 开发。

    亮点🔥

    • 长对话语音生成:目前支持 4 位说话者的 3 分钟对话,并且可以通过扩展训练语料库轻松扩展到更多说话者的更长对话。
    • 多语言支持:支持英语、中文、日语、韩语、法语、德语、俄语等多种语言。支持零样本语音克隆,适用于跨语言和代码切换场景。
    • 超低延迟:基于新的12.5Hz 流式语音标记器,我们采用了双变压器架构,该架构在文本语音交错序列上运行,从而实现了灵活的逐句生成并减少了首包延迟。具体而言,在 L20 GPU 上,我们的首包延迟低至 140ms,同时保持高质量的音频输出。
    • 强稳定性:我们的模型在独白和对话测试中都实现了高相似度和低WER/CER。
    • 随机音色生成:用于创建 ASR/语音交互数据。

    演示

    随机音色生成和多语言支持 多语言360p.mp4 

    零样本播客生成 聊天克隆_360p.mp4 

    针对特定演讲者进行精细调整的播客生成

    ⚠️演讲者声音:播客《肥话连篇》主持人“肥杰”和“惠子”。未经授权禁止使用。

    ⚠️声音来源:播客《肥话连篇》主播“肥杰”和“惠子”,尚未授权不能使用。 演示_v7_360p.mp4 

    项目地址

    github:https://github.com/FireRedTeam/FireRedTTS2

  • Everywhere:适用于桌面的上下文感知 AI 助手,智能响应,无缝集成多个 LLM 和 MCP 工具

    软件介绍

    Everywhere 是一款具有上下文感知功能的交互式 AI 助手,具有时尚、现代的用户界面和强大的集成功能。与传统的人工智能工具不同,Everywhere 可以立即感知和理解屏幕上的任何内容。无需屏幕截图、复制或切换应用程序 – 只需按快捷键即可随时随地获得所需的帮助,提供无缝的 AI 助手支持。

    软件截图

    特征

    屏幕内容感知:智能识别当前界面内容,自动理解应用场景,随时响应操作。

    多场景:支持一键提醒、网页摘要、即时翻译、邮件润色等丰富 AI 功能。

    可扩展:基于 .NET 和 Avalonia,支持多种大模型和MCP工具。

    无缝集成:原生桌面环境支持,键盘快捷键唤起,无需切换应用即可交互。

    软件下载

    项目地址:https://github.com/DearVa/Everywhere

    网站地址:https://everywhere.sylinko.com/zh-CN/

  • LMArena AI – 找到最适合你的人工智能,通过比较顶级 AI 模型的答案,整理出AI公共排行榜

    LMArena由加州大学伯克利分校的研究人员创建,是一个开放平台,每个人都可以轻松访问、探索并与世界领先的 AI 模型互动。通过并排比较这些模型并投票选出最佳模型

    通过battle 去对比两个模型生成的效果。

    既可以一生成图片,又可以进行对话。大家用的多的偏向于图片生成。

    如何操作?

    打开 lmarena ai,进入页面后找 Image Edit 或 Battle 入口,核心是“随机匹配匿名模型”,它不会告诉你使用了哪个模型去生成的图片,等你选择满意图片后才会告诉你!阿喵我试了几次,基本上让人满意的都是nano banana。左边一般是chatgpt或者谷歌gemini等

    网站截图

    网站链接

    https://lmarena.ai/?chat-modality=image

  • Officeso,Office AI:AI智能办公助手,提升办公效率

    软件介绍

    Office AI 是一款基于 AI 的办公插件,智能办公助手,支持在 Word、Excel、PPT 及 WPS 中运行,致力于提升办公效率。

    可实现一键完成数据分析、文档生成、自动图表制作、自动处理数据清理、转换、内容总结等功能,只需选中内容或输入提示词即可。

    软件截图

    核心功能

    • AI驱动分析: 智能数据分析和处理
    • 多文档支持: 处理Excel、Word和PowerPoint文件
    • 外部数据集成: 导入和分析外部数据源
    • 智能内容生成: 自动生成报告和摘要
    • 实时辅助: 交互式聊天界面提供即时帮助
    • MCP客户端集成: 已集成MCP-Client,支持MCP-Server配置
    • DeepSeek增强: 已对Deepseek增强,提供更好的AI性能

    下载地址

    https://www.officeso.cn