Michael Blog

发表于2025-12-08|AI

在 AI 技术爆发的今天，我们拥有了无数强大的大模型和工具，但如何高效地将这些能力集成到日常工作流中，仍然是一个巨大的挑战。通常我们面临的问题不是”AI 能做什么”，而是”如何让 AI 帮我做这件事”。 Fabric 正是为了解决这个问题而诞生的。它是一个旨在通过 AI 增强人类能力的开源框架，核心理念是将 AI 的原子能力封装成标准化的”模式”（Patterns），让我们能够像使用命令行工具一样方便地调用 AI 能力。什么是 Fabric？Fabric 由安全专家 Daniel Miessler 创建，它不仅仅是一个工具，更是一种使用 AI 的方法论。核心痛点 Prompt 管理混乱：每个人都在写 Prompt，但很难复用、版本控制和分享。集成困难：在这个应用里用 ChatGPT，在那个应用里用 Claude，缺乏统一的入口。上下文切换：为了使用 AI，需要在不同窗口间频繁切换，打断心流。核心特性 Patterns（模式）：Fabric 将高质量的 Prompt 封装为 Pattern，每个 Pattern 解决一个具体问题（如”提取视频摘要”、”分析代码安全”、”撰写技 ...

15个实用开源AI项目汇总：从PPT生成到语音克隆

发表于2025-12-08|AI

随着大语言模型（LLM）的爆发，GitHub 上涌现了大量优秀的开源 AI 项目。这些项目不仅降低了 AI 技术的使用门槛，还切实解决了许多工作和生活中的痛点。本文精选了 15 个偏向实用的开源 AI 项目，涵盖 PPT 自动生成、本地 LLM 交互、应用开发、前端生成、AI 搜索、私有云相册、工作流增强、语音转文字、图像生成、知识库、声音克隆以及数据库管理等领域。无论你是开发者、产品经理还是普通用户，都能从中找到提升效率的利器。 1. Presenton：AI 自动生成 PPTPresenton 是一个开源的 AI 演示文稿生成器，可以看作是 Gamma、Beautiful.ai 的开源替代品。它完全在本地运行，支持使用 OpenAI、Gemini 或本地 Ollama 模型来生成内容。 GitHub: https://github.com/presenton/presenton 主要功能: 多模型支持: 支持 OpenAI, Gemini, Ollama 等多种 LLM 后端。隐私安全: 数据掌握在自己手中，支持本地运行。所见即所得: 生成大纲后可进行编辑，再生成最 ...

大语言模型各类版本详解：Base、Instruct、MoE、量化、Thinking 等到底是什么意思？

发表于2025-11-26|AI

一、为什么要搞懂大模型的各种「版本」？近年来，各种大模型名字后面越来越“花”： Base / Instruct / Chat MoE（Mixture of Experts） AWQ / GPTQ / INT4 / FP8 量化 Thinking / DeepThink / Step / Reasoning 如果不了解这些后缀的含义，我们就很难：正确选择模型：是用 Base 还是 Instruct？是要 MoE 还是稠密模型？合理评估效果：为什么同一家模型，Instruct 版本比 Base 用起来舒服很多？看懂论文与技术文档：里面充满了 dense、MoE、SFT、RLHF、quantization 等术语。这篇文章的目标是：用通俗语言 + 对比表格，解释常见大模型版本名背后的含义、原理与适用场景帮助你在选型、部署与使用大模型时，做到：心中有数，不再迷茫二、从「Base 模型」到「Instruct 模型」2.1 Base 模型：会“说话”，但不一定听得懂你Base 模型（基座模型 ...

使用vLLM部署Qwen3-Next-80B-A3B-Instruct大模型完整指南

发表于2025-11-24|AI

在大模型时代，如何高效部署和运维一个80B级别的大语言模型服务是许多AI工程师面临的挑战。本文将详细介绍使用vLLM部署Qwen3-Next-80B-A3B-Instruct模型的完整流程，包括模型查找、参数配置、显存估算、下载部署、监控管理、性能压测以及推理追踪等关键环节。通过本文，您将能够快速搭建一个生产级别的大模型推理服务。目标读者本文适合以下读者： AI/ML工程师，需要部署大规模语言模型服务 DevOps工程师，负责管理和运维大模型推理平台技术架构师，评估大模型部署方案研究人员，需要高性能推理环境一、模型查找与选择1.1 Qwen3-Next-80B-A3B-Instruct模型介绍Qwen3-Next-80B-A3B-Instruct是阿里云通义千问团队推出的最新一代大语言模型，采用先进的MoE（Mixture of Experts）架构，具有以下特点：模型架构：MoE混合专家模型，总参数80B，激活参数仅3B 性能优势：以3B的计算成本获得接近80B Dense模型的性能上下文长度：支持最长256K tokens的上下文（推理时建议8K-32K ...

生产级大语言模型平台系统设计：多期落地方案与实践

发表于2025-11-18|AI

背景与目标随着大语言模型在企业内的应用场景不断扩展，单一模型服务或简单的 API + 网关架构已经难以满足生产环境下的多租户管理、资源隔离、安全合规、可观测性以及快速迭代等要求。企业需要一套生产级别的大语言模型平台系统，以平台化的方式统一承载模型推理、Agent 编排、MCP 工具生态及 RAG 检索能力。本文面向有一定 DevOps/平台工程基础的读者，设计一套可生产落地的大语言模型平台，从整体架构到关键模块拆解，涵盖：模型部署与运行时管理多集群 / 多云资源管理与调度监控、日志、链路追踪与容量管理安全与访问控制 RAG 平台 Agent 平台 MCP（Model Context Protocol）生态集成平台运维与发布管理并按照优先级划分为多期落地路线，便于企业按阶段实施。本文更偏向平台架构设计与关键实现要点，不绑定某个具体云厂商，可结合 Kubernetes、Service Mesh、向量数据库等基础设施实施。多期落地规划概览为了降低一次性建设的复杂度，建议将大模型平台拆分为多期，逐步演进：一期（核心推理与基础运维能力，必须上线 ...

Python包开发与发布：使用 build 与 twine（含 project.scripts 示例）

发表于2025-11-13|DevOps

本文面向有一定 Python 基础、希望将代码规范化为可安装包并发布到 PyPI 的工程师。你将学会：如何创建标准的 Python 包工程骨架（src 布局）在 pyproject.toml 中使用 PEP 621 声明元数据与 project.scripts 生成命令行脚本使用 build 本地构建分发产物（sdist/wheel）使用 twine 校验并上传到 TestPyPI 与 PyPI 常见问题与排错要点参考标准：PEP 517/518（构建系统），PEP 621（项目元数据）。适用环境 Python ≥ 3.8（推荐 3.10+） macOS/Linux/Windows 包管理：pip 或 pipx 一、项目骨架（src 布局）推荐使用「src 布局」以避免导入歧义，目录结构如下： 1234567891011mycli/├─ pyproject.toml├─ README.md├─ LICENSE├─ src/│ └─ mycli/│ ├─ __init__.py│ ├─ __main__.py│ ...

LiteLLM Proxy 使用指南：Docker 部署、vLLM 代理

发表于2025-09-30|AI

背景与目标LiteLLM Proxy 是一个 OpenAI API 兼容的模型网关，支持将来自 OpenAI、Azure OpenAI、Bedrock、Vertex AI 以及本地/自建的 OpenAI 兼容推理服务（如 vLLM）统一到一套接口之下，并提供虚拟 API Key、用量与预算、速率限制、缓存、日志/指标、路由、负载均衡与回退等能力。本文将演示：如何用 Docker 快速部署 LiteLLM Proxy（含最小可用与带数据库的完整模式）如何把 vLLM 暴露的 OpenAI 兼容接口接入到 LiteLLM Proxy 进行统一代理如何生成虚拟 Key、设置每分钟请求数（RPM）限速如何查询模型列表等常用“免费”功能参考与更多细节请见官方文档： LiteLLM Proxy Docker 快速上手 vLLM Provider 文档你将学到什么用 Docker 启动 LiteLLM Proxy，并验证 /chat/completions 将本地 vLLM（OpenAI 兼容接口）纳入代理，统一用 OpenAI 协议调用配置同名模型多后端 ...

LightRAG：轻量级检索增强生成系统详解

发表于2025-08-13|AI

随着大语言模型（LLM）的快速发展，如何让AI系统能够访问和处理大量外部知识成为了一个关键挑战。检索增强生成（Retrieval-Augmented Generation，RAG）技术应运而生，而LightRAG作为一个轻量级且高效的RAG系统，通过结合知识图谱和向量检索技术，为企业级知识管理和智能问答提供了优秀的解决方案。 LightRAG 简介LightRAG是一个现代化的检索增强生成系统，专注于提供高质量的问答和知识管理功能。该系统最大的特点是将传统的向量检索与知识图谱技术相结合，实现了更精准和上下文相关的信息检索。核心特性轻量级设计：优化的架构设计，降低资源消耗多模态支持：同时支持向量检索和图谱检索多存储后端：兼容Neo4j、PostgreSQL、Faiss等多种存储系统多模型支持：支持OpenAI、Hugging Face、Ollama等主流LLM 生产就绪：提供完整的API接口和Web UI界面高并发处理：支持并发索引和查询操作系统架构设计LightRAG采用分层模块化架构，确保了系统的可扩展性和维护性。整体架构LightRAG的架构分为索引（Index） ...

从零构建RAG文档问答系统：技术栈与实现方案详解

发表于2025-08-11|AI

从零构建RAG文档问答系统：技术栈与实现方案详解引言在人工智能快速发展的今天，如何让AI模型基于特定文档内容进行准确回答，成为了一个重要的技术挑战。传统的问答系统往往存在”幻觉”问题，即模型会生成看似合理但实际不准确的信息。为了解决这个问题，我们构建了一个基于RAG（Retrieval-Augmented Generation）技术的文档问答系统。本文将详细介绍这个项目的技术栈选择、架构设计、实现方案以及开发过程中的关键决策。项目概述项目源代码: https://github.com/xhuaustc/rag-qa-system 我们的RAG文档问答系统具有以下核心特性： 🔍 多格式文档支持: PDF、DOCX、Markdown、TXT等 🤖 多LLM后端: Ollama、OpenAI、Azure OpenAI 📝 智能文档分块: 支持中英文混合文本的智能分块 🔗 向量检索: 基于ChromaDB的高效向量检索 💬 智能问答: 基于文档内容的智能问答 ⚙️ 灵活配置: 支持环境变量和代码配置 🛠️ 模块化设计: 清晰的模块分离和扩展性技术栈选择核心框架Lan ...

LangChain框架入门与实践：组件详解、使用场景与示例

发表于2025-08-09|AI

背景与目标读者LangChain 是一个面向大型语言模型（Large Language Models, LLM）应用开发的开源框架，由 Harrison Chase 于 2022 年发布，并在 2023 年成立公司后快速发展。它通过统一的抽象与模块化组件，帮助开发者高效构建复杂的 AI 应用，如聊天机器人、文档问答（RAG）、智能代理（Agent）与自动摘要等。本文面向有一定 Python 基础、希望系统了解并快速上手 LangChain 的工程师与技术爱好者，覆盖核心组件、常见应用场景与可运行示例代码。 LangChain 是什么，为什么需要它？统一接口：屏蔽不同模型与服务的差异（如 OpenAI、Hugging Face、本地模型等），提供一致的调用方式。组件化设计：围绕模型、提示（Prompt）、链（Chain）、代理（Agent）、记忆（Memory）、索引（Indexes/Retriever）等模块化组合，便于扩展与维护。工程化能力：提供可观测（Callbacks）、持久化（Checkpointers/Message History）、工具接入（ ...