Porozmawiaj z posągiem: jak stworzyć wielomodalną aplikację z ElevenAgents
- Autor
- Joe Reeve
- Opublikowano
- Ostatnia aktualizacja
PosłuchajPosłuchaj tego artykułu
Zrób zdjęcie posągu. Rozpoznaj postacie. Potem porozmawiaj z nimi na żywo – każda mówi innym, pasującym do epoki głosem.
To możesz zbudować z Voice Design i Agent API od ElevenLabs. W tym wpisie pokazujemy, jak działa aplikacja mobilna, która łączy computer vision z generowaniem głosu, by zamienić pomniki w interaktywne doświadczenia. Wszystko możesz powtórzyć dzięki poniższym API i przykładom kodu.
Pomiń tutorial – zbuduj to jednym promptem
Cała aplikacja poniżej powstała z jednego prompta, przetestowana i działa od razu w Kursor z Claude Opus 4.5 (high) na pustym projekcie NextJS. Jeśli chcesz od razu zbudować własną wersję, wklej to do swojego edytora:
Możesz też użyć Umiejętności ElevenLabs Agent zamiast linkować do dokumentacji. Są oparte na dokumentacji i często dają jeszcze lepsze efekty.
Dalej w tym wpisie rozkładamy na części to, co robi ten prompt.
Jak to działa
Całość składa się z pięciu etapów:
- Zrób zdjęcie
- Rozpoznaj dzieło i postacie (OpenAI)
- Zbadaj historię (OpenAI)
- Wygeneruj unikalne głosy dla każdej postaci (ElevenAPI)
- Rozpocznij rozmowę głosową na żywo przez WebRTC (ElevenAgents)
Rozpoznawanie posągu przez wizję
Gdy użytkownik robi zdjęcie posągu, obraz trafia do modelu OpenAI z obsługą wizji. Specjalny prompt systemowy wyciąga nazwę dzieła, lokalizację, autora, datę i – co ważne – szczegółowy opis głosu każdej postaci. Prompt zawiera oczekiwany format wyjścia w JSON:
Dla zdjęcia posągu Boudiki na Westminster Bridge w Londynie odpowiedź wygląda tak:
Jak pisać dobre opisy głosu
Jakość opisu głosu bezpośrednio wpływa na jakość wygenerowanego głosu. Przewodnik po promptach Voice Design opisuje to dokładnie, ale najważniejsze cechy to: znacznik jakości dźwięku („Perfekcyjna jakość audio.”), wiek i płeć, ton/barwa (głęboki, rezonujący, chropowaty), dokładny akcent („mocny celtycki brytyjski” zamiast po prostu „brytyjski”) i tempo mowy. Im bardziej szczegółowy prompt, tym lepszy efekt – „zmęczona nowojorczyni po sześćdziesiątce z suchym poczuciem humoru” zawsze będzie lepsze niż „starszy kobiecy głos”.
Kilka rzeczy z przewodnika: używaj „mocny” zamiast „silny” przy opisie akcentu, unikaj ogólników typu „obcy”, a dla postaci fikcyjnych lub historycznych możesz podać realny akcent jako inspirację (np. „starożytna celtycka królowa z mocnym brytyjskim akcentem, dostojna i stanowcza”).
Tworzenie głosów postaci w Voice Design
Voice Design API generuje nowe syntetyczne głosy na podstawie opisu tekstowego – nie potrzebujesz próbek ani klonowania głosu. To świetne rozwiązanie dla postaci historycznych, których nagrań nie ma.
Proces składa się z dwóch kroków.
Wygeneruj podglądy
Parametr tekstowy ma znaczenie. Dłuższy, pasujący do postaci tekst (50+ słów) daje stabilniejsze efekty – dopasuj wypowiedź do postaci, nie używaj ogólnych powitań. Przewodnik po promptach Voice Design opisuje to szerzej.
Zapisz głos
Gdy masz podglądy, wybierz jeden i utwórz stały głos:
Przy kilku postaciach głosy generują się równolegle. Pięć głosów powstaje w podobnym czasie co jeden:
Budowanie agenta ElevenLabs z wieloma głosami
Gdy masz już głosy, kolejny krok to konfiguracjaAgent ElevenLabs, który potrafi przełączać się między głosami postaci na żywo.
Przełączanie głosów
Tablica supportedVoices mówi agentowi, które głosy są dostępne. Platforma Agents sama przełącza głosy – jeśli LLM wskaże, że mówi inna postać, silnik TTS przekieruje tę część do właściwego głosu.
Projektowanie promptów do rozmów grupowych
By kilka postaci brzmiało jak prawdziwa grupa, a nie tylko odpowiadało po kolei, trzeba dobrze zaprojektować prompt:
Rozmowa na żywo przez WebRTC
Na końcu jest połączenie z klientem. ElevenLabs Agents obsługują WebRTC, więc rozmowy głosowe są bardzo szybkie – dużo szybciej niż przez WebSocket, co ma znaczenie przy naturalnej wymianie zdań.
Po stronie serwera: pobierz token rozmowy
Po stronie klienta: rozpocznij sesję
Hook useConversation obsługuje nagrywanie, streaming, wykrywanie aktywności głosowej i odtwarzanie.
Więcej wiedzy dzięki wyszukiwarce
Jeśli użytkownik chce więcej kontekstu historycznego przed rozmową, możesz dodać tryb rozszerzonych badań z narzędziem wyszukiwania OpenAI:
Czego się nauczyliśmy
Ten projekt pokazuje, że łącząc różne możliwości AI – tekst, badania, wizję i audio – można tworzyć doświadczenia łączące świat cyfrowy i rzeczywisty. W multi-modalnych agentach jest jeszcze mnóstwo nieodkrytego potencjału – chcemy, żeby więcej osób to sprawdziło w edukacji, pracy i zabawie.
Zacznij budować
API użyte w tym projekcie –Voice Design,ElevenAgents i OpenAI – są dostępne już teraz.



.webp&w=3840&q=80)
