whisper.cpp：一个轻量级智能语音识别库

This page is also available in: English

whisper.cpp logo

什么是 whisper.cpp？

whisper.cpp 是一个用 C/C++ 编写的轻量级智能语音识别库，是基于 OpenAI 的 Whisper 模型的移植版本，是用于音频转文字的深度学习模型，它可以在没有互联网连接的情况下，实时地将人类的语音转换为文本。

Whisper 的特点是它不需要任何预训练的数据，也不需要任何语言或领域的先验知识，它可以自动地从音频中学习语言的规则和结构。

Whisper 的原始版本是用 Python 编写的，使用了 TensorFlow 和 PyTorch 作为深度学习框架。whisper.cpp 则是将 Whisper 的核心算法用 C/C++ 重写了，使得它可以在不同的平台和设备上运行，而不需要安装任何额外的依赖项。

whisper.cpp 的优势主要有以下几点：

无依赖项，内存占用低，性能优异。 不需要安装任何第三方的库或框架，只需要一个 C/C++ 编译器就可以编译和运行。它的内存占用非常低，只需要几兆字节的内存就可以处理音频数据。它的性能也非常优异，它可以在 CPU，GPU，或者其他加速器上运行，利用多核和并行计算的优势，实现高效的语音识别。
多种技术和平台。 支持 Apple Silicon，ARM NEON，Accelerate 框架，Metal 和 Core ML 等技术，使得它可以在 Mac OS 和 iOS 设备上运行。它也支持 AVX，VSX，CUDA，OpenCL，OpenVINO 等技术，可以在 Linux，Windows，Android，Java，WebAssembly，Raspberry Pi 等平台和设备上运行。它还提供了 C 风格的 API，从而可以轻松地与其他语言和框架集成，例如 Python，Ruby，Java，JavaScript，Swift 等。
混合精度和整数量化。 支持使用不同的精度来运行 Whisper 模型，例如 32 位浮点数，16 位浮点数，8 位整数等。这可以根据不同的设备和需求，平衡模型的大小，速度，和准确度。它还支持使用整数量化的技术，将模型的权重和激活函数转换为整数，从而进一步减少模型的大小，提高模型的速度，降低模型的功耗。

whisper.cpp 适用于需要实时，离线，通用，和轻量级的语音识别的场景，例如：

语音助手。 可以为语音助手提供语音识别的功能，使得用户可以通过语音来控制和交互，自适应地识别用户的语言和口音，提供准确和流畅的语音识别体验。
语音备忘录。 可以为语音备忘录提供语音识别的功能，使得用户可以通过语音来记录和查询。它可以自动地从音频中提取关键词和信息，提供高效和便捷的语音备忘录功能。
语音翻译。 可以为语音翻译提供语音识别的功能，使得用户可以通过语音来进行跨语言的沟通和交流。

但对于需要专业，精细，和高质量的语音识别的场景可能不是很适合，例如：

语音转写。 不支持对音频文件进行批量和后台的处理，也不支持对音频文件进行分段，分析，和校正的功能，它只能提供原始的语音识别结果，而不是格式化和优化的文本输出。
语音识别竞赛。 不针对任何特定的语言或领域进行优化，也不支持使用预训练的数据或模型，它只能使用音频本身作为输入，而不是其他的特征或标签。它的准确度和稳定性可能不如其他的专业的语音识别库或系统。
商业或生产环境。 是一个业余项目，不追求提供一个面向生产的实现。其主要目的是为了教育，简洁，可移植，可修改，和高性能。它不会对准确性提供任何承诺和保证，支持和更新主要依赖于贡献者。

whisper.cpp 是轻量级智能语音识别库，它是基于 OpenAI 的 Whisper 模型的移植版本。它具有无依赖项，内存占用低，性能优异，支持多种技术和平台，支持混合精度和整数量化等优势。适用于需要实时，离线，通用和轻量级的语音识别的场景，例如语音助手，语音备忘录，语音翻译等。

如果你对 whisper.cpp 有兴趣，你可以访问它的 GitHub 仓库查看更多信息。

本文发布于 2024-01-27，最近更新 2024-09-23。

本文版权归 torchtree.com 网站所有，未经授权不可转载。