wwbin2017/bailing 有哪些主要特性？

ASR+LLM+TTS语音对话架构; 集成DeepSeek R1等优秀模型; 接入openClaw功能; 响应延迟低至800毫秒; 支持Mac等低配置设备运行; 具备语音打断功能

wwbin2017/bailing 有哪些使用场景？

作为个人语音助手处理日常事务; 开发低延迟的交互式语音应用; 在资源受限设备上部署语音界面; 进行ASR/LLM/TTS集成管道实验; 通过openClaw实现语音控制自动化; 提供易用的AI语音交互体验

wwbin2017/bailing 使用什么编程语言？

wwbin2017/bailing 主要使用 Python 编写。

如何安装 wwbin2017/bailing？

运行命令：openclaw install wwbin2017/bailing

Claude Skill

wwbin2017/bailing

百聆是一款开源的、类似GPT-4o的语音对话机器人，采用ASR+LLM+TTS技术栈。集成DeepSeek R1模型，接入openClaw，响应延迟低于800毫秒，支持Mac等低配设备运行和语音打断，是一个实用的个人语音助手。

语言

概览

Stars1,729

Forks304

语言Python

最后更新2026-04-06

最近同步2026-07-03

前往 GitHub

仓库信息

拥有者wwbin2017

仓库bailing

完整名称wwbin2017/bailing

Repo ID847,241,140

GitHub 地址https://github.com/wwbin2017/bailing

安装这个 Skill

git clone https://github.com/wwbin2017/bailing.git

GitHub

Registry 信息

类型openclaw_skill

质量分70/100

验证状态readme_parsed

最近验证2026-06-02

平台

OpenClaw

能力

code-reviewmemorysearchaiasrchatgptchatttsdeepseekfunasrgpt-4o

识别文件

README.mdrequirements.txt

安装方式

git clone https://github.com/wwbin2017/bailing.git
pip install -r requirements.txt
pip install -r third_party/OpenManus/requirements.txt

项目简介

百聆是一款类似GPT-4o的语音对话机器人，采用ASR（自动语音识别）+ LLM（大语言模型）+ TTS（语音合成）技术架构。它集成了DeepSeek R1等优秀大模型，并接入openClaw功能，是一款真正的个人语音助手。其响应延迟低至800毫秒，即使在Mac等低配置设备上也能流畅运行，同时支持语音打断功能。

英文描述

百聆是一个类似GPT-4o的语音对话机器人，通过ASR+LLM+TTS实现，集成DeepSeek R1等优秀大模型，接入openClaw，真正的个人语音助手，时延低至800ms，Mac等低配置也可运行，支持打断

要点

ASR+LLM+TTS语音对话架构
集成DeepSeek R1等优秀模型
接入openClaw功能
响应延迟低至800毫秒
支持Mac等低配置设备运行
具备语音打断功能

使用场景

作为个人语音助手处理日常事务
开发低延迟的交互式语音应用
在资源受限设备上部署语音界面
进行ASR/LLM/TTS集成管道实验
通过openClaw实现语音控制自动化
提供易用的AI语音交互体验

README 摘要

# 百聆 (Bailing) <span>[ 中文 | <a href="README_en.md">English</a> ]</span> **百聆** 是一个开源的语音对话助手，旨在通过语音与用户进行自然的对话。该项目结合了语音识别 (ASR)、语音活动检测 (VAD)、大语言模型 (LLM) 和语音合成 (TTS) 技术，这是一个类似GPT-4o的语音对话机器人，通过ASR+LLM+TTS实现，提供高质量的语音对话体验，端到端时延800ms。百聆旨在无需GPU的情况下，实现类GPT-4o的对话效果，适用于各种边缘设备和低资源环境。 ![logo](assets/logo.png) ## 项目特点 - 🚀 **流畅对话体验**：低延迟、不卡顿，几乎像真人对话一样自然，百聆使用了多个开源模型，确保高效、可靠的语音对话体验。 - 🖥 **轻量级部署**：无需高端硬件，甚至不需要 GPU，通过优化，可本地部署，仍能提供类GPT-4的性能表现。 - 🔧 **模块化设计**：ASR、VAD、LLM和TTS模块相互独立，可以根据需求进行替换和升级。 - 🧠 **智能记忆功能**：具备持续学习能力，能够记忆用户的偏好与历史对话，提供个性化的互动体验。 - 🛠 **工具调用能力**：灵活集成外部工具，用户可通过语音直接请求信息或执行操作，提升助手的实用性。 - 📅 **任务管理**：高效管理用户任务，能够跟踪进度、设置提醒，并提供动态更新，确保用户不错过任何重要事项。 - 🌐 **可扩展生态**：除 OpenClaw 外，也支持逐步接入更多外部工具与 Agent 能力 ## 为什么重点支持 OpenClaw 百聆不仅是一个“能说话”的助手，更是一个“能做事”的助手。我们将 OpenClaw 作为核心工具调用引擎之一，用来处理复杂任务、外部工具编排和高阶 Agent 能力。通过 OpenClaw，百聆可以： - 将用户的自然语言请求转换为可执行任务 - 在对话中调用外部工具完成搜索、分析、操作等动作 - 处理更复杂的多步骤任务 - 让语音助手从“聊天机器人”升级为“行动型助手” 换句话说，OpenClaw 是百聆走向 JARVIS 化的重要一层。 ## 感谢开源社区百聆的诞生，离不开开源社区的无私贡献。感谢 DeepSeek、FunASR、Silero-VAD、ChatTTS、openclaw 等优秀的开源项目，让我们有机会打造一个真正开放、强大、低门槛的语音 AI 助手！如果你也认同让 AI 触手可及的理念，欢迎一起贡献代码、优化模型，让百聆更强、更智能，成为真正的 JARVIS！ 📢 欢迎 Star & PR ## 项目简介百聆通过以下技术组件实现语音对话功能： - 🎙 **ASR**: 使用 [FunASR](https://github.com/modelscope/FunASR) 进行自动语音识别，将用户的语音转换为文本。 - 🎚 **VAD**: 使用 [silero-vad](https://github.com/snakers4/silero-vad) 进行语音活动检测，以确保只处理有效的语音片段。 - 🧠 **LLM**: 使用 [deepseek](https://github.com/deepseek-ai/DeepSeek-LLM) 作为大语言模型来处理用户输入并生成响应，极具性价比。 - 🔊 **TTS**: 使用 [edge-tts](https://github.com/rany2/edge-tts) [Kokoro-82M](https://huggingface.co/hexgrad/Kokoro-82M) [ChatTTS](https://github.com/2noise/ChatTTS) MacOS say进行文本到语音的转换，将生成的文本响应转换为自然流畅的语音。 ## 框架说明 ![百聆流程图](assets/bailing_flowchart_a.png) Robot 负责高效的任务管理与记忆管理，能够智能地处理用户的打断请求，同时实现各个模块之间的无缝协调与连接，以确保流畅的交互体验。 | 播放器状态 | 是否说话 | 说明 |

话题

ai asr chatgpt chattts deepseek funasr gpt-4o llm openai openclaw tts voice-assistant

wwbin2017/bailing

概览

仓库信息

安装这个 Skill

Registry 信息

项目简介

要点

使用场景

README 摘要

话题

探索更多

相关技能

NousResearch/hermes-agent

infiniflow/ragflow

zhayujie/CowAgent

HKUDS/nanobot

liyupi/ai-guide

BlockRunAI/ClawRouter