Suno Voice Cloning API Integrationsanleitung

SUNO ermöglicht es uns, benutzerdefinierte Stimmcharaktere durch beliebige Audiodateien zu erstellen und so eine Stimmklonung für die Musikproduktion zu realisieren. Im Gegensatz zur bestehenden Persona API (die mit Suno generierte audio_id verwendet), akzeptiert diese API eine öffentlich zugängliche audio_url, also eine eigene Sprachaufnahme. Dieses Dokument erklärt, wie die Voice Cloning API integriert wird.

Schritt 1: Erstellen eines Stimmcharakters

Die API hat drei Eingabeparameter: audio_url (Pflicht), eine öffentlich zugängliche URL zu einer MP3- oder WAV-Audiodatei, die eine einzelne klare menschliche Stimme enthält; name und description (optional), der Name und die Beschreibung des Stimmcharakters. Anforderungen an die Audiodatei:

Format: MP3 oder WAV
Länge: mindestens 10 Sekunden
Inhalt: einzelne klare menschliche Stimme, möglichst wenig Hintergrundgeräusche oder Musik

curl -X POST 'https://api.xhuoapi.ai/v1/suno/voices' \
-H 'accept: application/json' \
-H 'authorization: Bearer {token}' \
-H 'content-type: application/json' \
-d '{
  "audio_url": "http://cos.aitutu.cc/mp4/ru-user-voice.mp3",
  "name": "RU User Voice Test",
  "description": "Benutzerstimmaufnahme Beispiel"
}'

Das Ergebnis sieht folgendermaßen aus:

{
  "success": true,
  "task_id": "b9150e51-d87c-4556-a55e-100947a63bdf",
  "data": {
    "persona_id": "e95013f8-eaee-4741-a42f-1d559a9d0b2b",
    "name": "RU User Voice Test",
    "is_public": false
  }
}

Man sieht, dass das Feld persona_id in data die ID des erstellten Stimmcharakters ist. Das Feld is_public ist immer false, da Stimmcharaktere, die durch Hochladen von Audio erstellt werden, privat sind.

Schritt 2: Musik mit dem Stimmcharakter generieren

Mit der Stimmcharakter-ID können wir die Suno Audios Generation API zur Musikgenerierung verwenden. Setze action auf generate und persona_id auf die oben zurückgegebene Stimmcharakter-ID, dann wird das generierte Lied mit der geklonten Stimme gesungen.

Hinweis: Voice Cloning wird nur von Modellen chirp-v4-5 und höher unterstützt (z. B. chirp-v4-5, chirp-v5, chirp-v5-5), nicht von chirp-v4.

curl -X POST 'https://api.xhuoapi.ai/v1/suno/audios' \
-H 'accept: application/json' \
-H 'authorization: Bearer {token}' \
-H 'content-type: application/json' \
-d '{
  "action": "generate",
  "model": "chirp-v5-5",
  "prompt": "A warm synth-pop song about city nights",
  "persona_id": "e95013f8-eaee-4741-a42f-1d559a9d0b2b"
}'

Das Ergebnis sieht folgendermaßen aus:

{
  "success": true,
  "task_id": "53d8a334-a972-43c5-895e-60c4454e88d5",
  "data": [
    {
      "id": "16463960-077c-4700-bbb3-3c7897b943d3",
      "title": "Soft Neon on My Skin",
      "audio_url": "https://cdn1.suno.ai/16463960-077c-4700-bbb3-3c7897b943d3.mp3",
      "image_url": "https://cdn2.suno.ai/image_16463960-077c-4700-bbb3-3c7897b943d3.jpeg",
      "model": "chirp-v5-5",
      "state": "succeeded",
      "prompt": "A warm synth-pop song about city nights",
      "duration": 156.28
    }
  ]
}

Man sieht, dass das erzeugte Lied mit der geklonten Stimme gesungen wird. Die persona_id kann auch in Kombination mit der Aktion cover verwendet werden, um bestehende Songs mit der geklonten Stimme neu zu interpretieren.

​Schritt 1: Erstellen eines Stimmcharakters

​Schritt 2: Musik mit dem Stimmcharakter generieren

Schritt 1: Erstellen eines Stimmcharakters

Schritt 2: Musik mit dem Stimmcharakter generieren