25:19
youtube.com 05/06/2026 SRT AI Videos

Beyond Transcription: Building Voice AI That Understands Conversations — Hervé Bredin, pyannoteAI

Desvendando a inteligência artificial que entende conversas além da transcrição com Hervé Bredin, da pyannoteAI.

Tecnologia AI ASR

Conteudo

TLDR;

Significa expandir o simples speech-to-text para também atribuir quem fala quando, obter timestamps precisos, prosódia e sinais acústicos que permitem entender a dinâmica e intenção da conversa. Speaker diarization é o processo de responder "quem fala quando" em uma gravação usando detecção de atividade de voz e agrupamento/rotulação de segmentos por locutor, como feito no projeto open‑source pyannote. Com esses sinais (identidade do falante, interrupções, pausas, entonação e contexto acústico) é possível melhorar dublagem e tradução automática, tomar atas de reunião com atribuição de ações, rastrear convidados em podcasts e enriquecer modelos downstream para inferir emoção e intenção.

Resumo

Na sessão Voice and Vision, Banan, cientista-chefe e cofundador da Pianoi, explicou a evolução além da transcrição — transformar áudio em texto — para atribuição de falantes (speaker diarization) e enriquecimentos que permitem entender melhor conversas. Ele contou sua trajetória acadêmica e o desenvolvimento do toolkit open‑source pyannote (pianut) que ganhou adesão após o surgimento do modelo Whisper da OpenAI, complementando transcrições sem identificação de falantes. Banan enfatizou que saber “quem disse o quê” é crítico em aplicações como dublagem automática, notas médicas, resumos de reuniões e inteligência para podcasts. Além de atribuir etiquetas por falante, é vital ter timestamps precisos para detectar interrupções, backchannels e pausas que informam intenção e interação. Ir além inclui analisar “como” foi dito — risos, tosses, estresse, disfluências e prosódia — porque ênfases em palavras mudam significados e auxiliam LLMs ou ferramentas posteriores. Também salientou o papel do ambiente acústico no contexto da conversa. Por fim, descreveu o fluxo típico: detecção de atividade de fala seguida por segmentação e atribuição de identidade, mostrando que a combinação de transcrição, diarização temporal e análise prosódica abre uma ampla gama de aplicações práticas. Ele também pediu apoio da comunidade e mencionou o crescimento do projeto no GitHub.