“文本到语音”和“语音到文本”的 C++ API答案

【问题标题】：C++ API for "Text To speech" and "Voice to Text"“文本到语音”和“语音到文本”的 C++ API
【发布时间】：2013-04-30 09:24:25
【问题描述】：

我想知道 C++ 中是否有用于“语音识别”和“文本到语音”的良好 API。我经历过Festival，你甚至不能说计算机是否在说话，因为它是如此真实，voce 也是如此。

不幸的是，Festival 似乎不支持语音识别（我的意思是“语音到文本”），而voce 是用 Java 构建的，并且由于 JNI 而在 C++ 中是一团糟。

API 应该同时支持“文本到语音”和“语音到文本”，并且应该有一组很好的示例，至少在所有者的网站之外。如果它能够识别一组给定的声音，那就完美了，但这是可选的，所以不用担心。

我要用 API 做的是，当给出一组语音命令时，将机器人设备向左、向右等转动。另外，对我说“早安”、“晚安”等。这些单词将被编码在程序中。

请帮助我为此目的找到一个好的 C++ 语音 API。如果您可以访问教程/安装教程，请也与我分享。

【问题讨论】：

微软的api是msdn.microsoft.com/en-us/library/ms720151(v=vs.85).aspx

标签： c++ qt artificial-intelligence voice voice-recognition

【解决方案1】：

我发现如果我进行录音（我为此使用了 qtmultimedia）必须是 flac Read more here

然后我可以上传到谷歌，然后让它给我发回一些 JSON
然后我为此编写了一些 c++/qt 来制作一个 qml 插件这是（alpha）代码。请注意确保替换
与您真正的 flac 文件。

speechrecognition.cpp

#include <QNetworkReply>
#include <QNetworkRequest>
#include <QSslSocket>
#include <QUrl>
#include <QJsonDocument>
#include <QJsonArray>
#include <QJsonObject>
#include "speechrecognition.h"
#include <QFile>
#include <QDebug>
const char* SpeechRecognition::kContentType = "audio/x-flac; rate=8000";
const char* SpeechRecognition::kUrl = "http://www.google.com/speech-api/v1/recognize?xjerr=1&client=directions&lang=en";

SpeechRecognition::SpeechRecognition(QObject* parent)
  : QObject(parent)
{
    network_ = new QNetworkAccessManager(this);
    connect(network_, SIGNAL(finished(QNetworkReply*)),
            this, SLOT(replyFinished(QNetworkReply*)));
}

void SpeechRecognition::start(){
    const QUrl url(kUrl);
    QNetworkRequest req(url);
    req.setHeader(QNetworkRequest::ContentTypeHeader, kContentType);
    req.setAttribute(QNetworkRequest::DoNotBufferUploadDataAttribute, false);
    req.setAttribute(QNetworkRequest::CacheLoadControlAttribute,
                     QNetworkRequest::AlwaysNetwork);
    QFile *compressedFile = new QFile("<YOUR FLAC FILE.flac>");
    compressedFile->open(QIODevice::ReadOnly);
    reply_ = network_->post(req, compressedFile);
}

void SpeechRecognition::replyFinished(QNetworkReply* reply) {

  Result result = Result_ErrorNetwork;
  Hypotheses hypotheses;

  if (reply->error() != QNetworkReply::NoError) {
    qDebug() << "ERROR \n" << reply->errorString();
  } else {
      qDebug() << "Running ParserResponse for \n" << reply << result;
      ParseResponse(reply, &result, &hypotheses);
  }
  emit Finished(result, hypotheses);
  reply_->deleteLater();
  reply_ = NULL;
}

void SpeechRecognition::ParseResponse(QIODevice* reply, Result* result,
                                      Hypotheses* hypotheses)
{
 QString getReplay ;
 getReplay = reply->readAll();
 qDebug() << "The Replay " << getReplay;
 QJsonDocument jsonDoc = QJsonDocument::fromJson(getReplay.toUtf8());
  QVariantMap data = jsonDoc.toVariant().toMap();

  const int status = data.value("status", Result_ErrorNetwork).toInt();
  *result = static_cast<Result>(status);

  if (status != Result_Success)
    return;

  QVariantList list = data.value("hypotheses", QVariantList()).toList();
  foreach (const QVariant& variant, list) {
    QVariantMap map = variant.toMap();

    if (!map.contains("utterance") || !map.contains("confidence"))
      continue;

    Hypothesis hypothesis;
    hypothesis.utterance = map.value("utterance", QString()).toString();
    hypothesis.confidence = map.value("confidence", 0.0).toReal();
    *hypotheses << hypothesis;
    qDebug() << "confidence = " << hypothesis.confidence << "\n Your Results = "<< hypothesis.utterance;
    setResults(hypothesis.utterance);
}
}

  void SpeechRecognition::setResults(const QString &results)
{
    if(m_results == results)
    return;
        m_results = results;
    emit resultsChanged();
}

QString SpeechRecognition::results()const
{
    return m_results;
}

speechrecognition.h

#ifndef SPEECHRECOGNITION_H
#define SPEECHRECOGNITION_H

#include <QObject>
#include <QList>

class QIODevice;
class QNetworkAccessManager;
class QNetworkReply;
class SpeechRecognition : public QObject {
  Q_OBJECT
    Q_PROPERTY(QString results READ results NOTIFY resultsChanged)

public:
  SpeechRecognition( QObject* parent = 0);
  static const char* kUrl;
  static const char* kContentType;

  struct Hypothesis {
    QString utterance;
    qreal confidence;
  };
  typedef QList<Hypothesis> Hypotheses;

  // This enumeration follows the values described here:
  // http://www.w3.org/2005/Incubator/htmlspeech/2010/10/google-api-draft.html#speech-input-error
  enum Result {
    Result_Success = 0,
    Result_ErrorAborted,
    Result_ErrorAudio,
    Result_ErrorNetwork,
    Result_NoSpeech,
    Result_NoMatch,
    Result_BadGrammar
  };
  Q_INVOKABLE void start();
  void Cancel();
  QString results()const;
  void setResults(const QString &results);

signals:
  void Finished(Result result, const Hypotheses& hypotheses);
  void resultsChanged();

private slots:
  void replyFinished(QNetworkReply* reply);

private:
  void ParseResponse(QIODevice* reply, Result* result, Hypotheses* hypotheses);

private:
  QNetworkAccessManager* network_;
  QNetworkReply* reply_;
  QByteArray buffered_raw_data_;
  int num_samples_recorded_;
    QString m_results;
};

#endif // SPEECHRECOGNITION_H

【讨论】：

您能以这种方式使用 google cloude 语音发短信及其所有功能吗？你能给算法“提示”吗？

【解决方案2】：

如果您在 Windows 上开发，您可以使用MS Speech API，它允许您执行语音识别 (ASR) 和文本转语音 (TTS)。
您可以在this page 上找到一些示例，在this post 上找到一个非常基本的语音识别示例。

【讨论】：

【解决方案3】：

如果您在机器人中有互联网连接并且愿意为该服务付费，理论上您可以使用 Twilio。他们有许多不同语言和平台的库和示例http://www.twilio.com/docs/libraries

另外，请查看此博客，了解如何使用 Twilio http://www.twilio.com/blog/2012/06/build-a-phone-controlled-robot-using-node-js-arduino-rn-xv-wifly-arduinoand-twilio.html 构建和控制基于 arduino 的机器人

【讨论】：