Documentation Index
Fetch the complete documentation index at: https://docs.xhuoapi.ai/llms.txt
Use this file to discover all available pages before exploring further.
SUNO ermöglicht es uns, die generierte Musik weiterzuverarbeiten, indem wir die Liedtexte und die Audio-Zeitachse abrufen. Dieses Dokument erklärt die Integration der zugehörigen API.
Die API hat nur einen Eingabeparameter, nämlich audio_id, das ist die vom offiziellen System generierte Song-ID.
Hier verwenden wir als Eingabe audio_id den Wert ec13e502-d043-4eb2-92ee-e900c6da69d1.
import requests
url = "https://api.xhuoapi.ai/v1/suno/timing"
headers = {
"accept": "application/json",
"authorization": "Bearer {token}",
"content-type": "application/json"
}
payload = {
"audio_id": "ec13e502-d043-4eb2-92ee-e900c6da69d1"
}
response = requests.post(url, json=payload, headers=headers)
print(response.text)
Das Ergebnis-Auszug sieht wie folgt aus:
{
"success": true,
"task_id": "ccf72cca-1c82-4580-8575-bb141c7e8e48",
"trace_id": "d8e0b7c3-6d24-4ed9-98ac-ffe683576a75",
"data": {
"aligned_words": [
{
"word": "[Verse]\nSnowflakes ",
"success": true,
"start_s": 2.63,
"end_s": 3.43,
"p_align": 0.531
},
{
"word": "dance ",
"success": true,
"start_s": 3.43,
"end_s": 3.91,
"p_align": 0.911
},
{
"word": "on ",
"success": true,
"start_s": 3.91,
"end_s": 4.35,
"p_align": 0.937
},
{
"word": "rooftops ",
"success": true,
"start_s": 4.35,
"end_s": 5.11,
"p_align": 0.366
},
{
"word": "high\n",
"success": true,
"start_s": 5.11,
"end_s": 6.25,
"p_align": 0.969
},
...
],
"waveform_data": [0.02138, 0.02193, 0.01806, 0.16597, 0.15168, 0.14243, ...],
"hoot_cer": 0.35013262599469497,
"is_streamed": false
}
}
Erläuterung des Feldes aligned_words
Man sieht, dass data.aligned_words ein Array von Objekten ist, wobei jedes Objekt ein Wort oder eine Phrase mit Zeitinformationen darstellt.
word: Das tatsächliche Wort oder die Phrase im Liedtext
success: Boolean, gibt an, ob die Ausrichtung dieses Wortes erfolgreich war
start_s: Startzeitpunkt des Wortes in Sekunden
end_s: Endzeitpunkt des Wortes in Sekunden
p_align: Wahrscheinlichkeit oder Vertrauensscore der Ausrichtung, Wertebereich von 0 bis 1