Instrukcja integracji API klonowania głosu Suno

SUNO umożliwia tworzenie niestandardowych postaci głosowych na podstawie dowolnych plików audio, realizując klonowanie głosu do generowania muzyki. W odróżnieniu od istniejącego Persona API (korzystającego z audio_id wygenerowanego przez Suno), to API przyjmuje publicznie dostępny audio_url, czyli własne nagranie głosu. Niniejsza dokumentacja wyjaśnia sposób integracji API klonowania głosu.

Krok pierwszy: utworzenie postaci głosowej

API posiada trzy parametry wejściowe: audio_url (wymagany), będący publicznie dostępnym URL do pliku audio w formacie MP3 lub WAV, zawierającego wyraźny głos jednej osoby; name oraz description (opcjonalne), określające nazwę i opis postaci głosowej. Wymagania dotyczące pliku audio:

Format: MP3 lub WAV
Długość: co najmniej 10 sekund
Zawartość: wyraźny głos jednej osoby, z minimalnym szumem tła lub muzyką

curl -X POST 'https://api.xhuoapi.ai/v1/suno/voices' \
-H 'accept: application/json' \
-H 'authorization: Bearer {token}' \
-H 'content-type: application/json' \
-d '{
  "audio_url": "http://cos.aitutu.cc/mp4/ru-user-voice.mp3",
  "name": "RU User Voice Test",
  "description": "用户语音录音示例"
}'

Otrzymany rezultat:

{
  "success": true,
  "task_id": "b9150e51-d87c-4556-a55e-100947a63bdf",
  "data": {
    "persona_id": "e95013f8-eaee-4741-a42f-1d559a9d0b2b",
    "name": "RU User Voice Test",
    "is_public": false
  }
}

Jak widać, pole persona_id w data to ID utworzonej postaci głosowej. Pole is_public zawsze ma wartość false, ponieważ postacie głosowe tworzone przez przesłanie audio są prywatne.

Krok drugi: generowanie muzyki z wykorzystaniem postaci głosowej

Mając ID postaci głosowej, możemy użyć Suno Audios Generation API do generowania muzyki. Ustaw action na generate oraz persona_id na zwrócone wcześniej ID postaci głosowej — wygenerowana piosenka zostanie zaśpiewana klonowanym głosem.

Uwaga: Klonowanie głosu jest obsługiwane tylko przez modele chirp-v4-5 i nowsze (np. chirp-v4-5, chirp-v5, chirp-v5-5), nie jest wspierane przez chirp-v4.

curl -X POST 'https://api.xhuoapi.ai/v1/suno/audios' \
-H 'accept: application/json' \
-H 'authorization: Bearer {token}' \
-H 'content-type: application/json' \
-d '{
  "action": "generate",
  "model": "chirp-v5-5",
  "prompt": "A warm synth-pop song about city nights",
  "persona_id": "e95013f8-eaee-4741-a42f-1d559a9d0b2b"
}'

Otrzymany rezultat:

{
  "success": true,
  "task_id": "53d8a334-a972-43c5-895e-60c4454e88d5",
  "data": [
    {
      "id": "16463960-077c-4700-bbb3-3c7897b943d3",
      "title": "Soft Neon on My Skin",
      "audio_url": "https://cdn1.suno.ai/16463960-077c-4700-bbb3-3c7897b943d3.mp3",
      "image_url": "https://cdn2.suno.ai/image_16463960-077c-4700-bbb3-3c7897b943d3.jpeg",
      "model": "chirp-v5-5",
      "state": "succeeded",
      "prompt": "A warm synth-pop song about city nights",
      "duration": 156.28
    }
  ]
}

Jak widać, wygenerowana piosenka została zaśpiewana klonowanym głosem. persona_id można także wykorzystać z akcją cover, aby wykonać covery istniejących utworów klonowanym głosem.

​Krok pierwszy: utworzenie postaci głosowej

​Krok drugi: generowanie muzyki z wykorzystaniem postaci głosowej

Krok pierwszy: utworzenie postaci głosowej

Krok drugi: generowanie muzyki z wykorzystaniem postaci głosowej