Interaktionsmodeller för naturlig mänsklig AI-kommunikation
- Skriven av
- Dan Hegedus
- Publicerad
LyssnaLyssna på den här artikeln
Vi har arbetat mot den här kategorin i flera år. Här berättar vi vad vi har lanserat och vilka forsknings- och produktval som ligger bakom.
Vår flaggskeppsprodukt – ElevenAgents med v3 Conversational
Vår flaggskeppsprodukt – ElevenAgents med v3 Conversational
Expressive Mode – Mark – Personligt lån Inkommande (Panik) – lanseringsmaterial.mp4
Tre saker måste fungera tillsammans för att ett interaktionssystem ska ge naturliga och engagerande samtal:
Tre saker måste fungera tillsammans för att ett interaktionssystem ska skapa engagerande och naturliga samtal:
*Avser endast modellens inferenstid. Den faktiska fördröjningen från start till slut kan variera beroende på till exempel din plats och vilken endpoint du använder.
- Svar på under en sekund. ElevenAgents är optimerade för svarstider under 100 ms i våra interna tester, och under 200 ms för telefoniintegrationer. Flash v2.5, vår snabbaste Text to Speech-modell, har cirka 75 ms inferenstid.*
- Turtagning som klarar avbrott. För att undvika att någon avbryter för tidigt behövs ett turtagningssystem som tar hänsyn till både tystnader och vad som faktiskt sägs.
- Uttrycksfull och naturlig leverans. Modellen måste svara med rätt ton, tempo och känsla för situationen.
Några av våra lanseringar
Några av de funktioner vi har lanserat
Spekulativ turtagning. En separat funktion i v3 Conversational som förbereder LLM-svar under användarens tystnad för att minska upplevd fördröjning.
Flash v2.5. Vår snabbaste Text to Speech-modell, framtagen för realtidsanvändning med låg fördröjning, cirka 75 ms inferenstid.*
Scribe v2. Vår Speech to Text-modell med marknadsledande noggrannhet.
ElevenAgents Expressive Mode. Gör det möjligt för agenter att använda uttryckstaggar som [skrattar], [viskar], [suckar] och [långsamt] för att styra leveransen i rätt sammanhang.
ElevenAgents Expressive Mode. Låter agenter använda uttryckstaggar som [skrattar], [viskar], [suckar] och [långsamt] för att styra leveransen i sitt sammanhang.
ElevenAgents Expressive Mode. Låter agenter använda uttryckstaggar som [skrattar], [viskar], [suckar] och [långsamt] för att styra leveransen i samtalet.
Vart vi är på väg
Många AI-samtal känns fortfarande som frågor och svar. Riktiga samtal gör inte det. Att minska det avståndet är vårt mål.
Många AI-samtal känns fortfarande som frågor och svar. Riktiga samtal gör inte det. Att minska det glappet är vårt jobb.




