Java: visão geral dos motores de fala [fechado]
Estou agora à procura de um framework Java Text to Speech (TTS). Durante as minhas investigações, encontrei vários frameworks JSAPI1. 0-(parcialmente) - compatíveis listados na página de implementações JSAPI , bem como um par de frameworks TTS Java que não parecem seguir as especificações JSAPI (Mary, Say-It-Now ([3]). Também notei que atualmente não existe nenhuma implementação de referência para JSAPI.
Os testes que fiz para o FreeTTS (o primeiro listado na página jsapi impls) mostram que está longe de ler palavras simples e óbvias (exemplos: ABC, quadro negro). Estão actualmente em curso outros testes.e aqui vai a Pergunta (6, na verdade):
-
Qual dos frameworks TTS baseados em Java já usou?
Quais são, na sua opinião, capazes de ler a maior base de palavras?
E a qualidade da voz deles?
E o desempenho deles?
- que frameworks não-Java com ligações Java estão lá na cena? Qual deles recomendaria?
agradeço antecipadamente os seus comentários e sugestões.
9 answers
O Google Translate tem uma api secreta do tts: https://translate.google.com/translate_tts?ie=utf-8&tl=en&q=Hello%20World
- Festival, mais antigo. Escrito em C++, mas tem ligações para Java.
- eSpeak, qucik e simple, usado pelo Google Translate
- mbrola
Java Puro:
- FreeTTS, que código foi portado do Festival, e depois foi de fonte aberta e o desenvolvimento foi interrompido.
Os MaryTTS são mais poderosos e a produção parece pronta.
Também há outros programas proprietários tipo:
- Acapella
- Vocalizador De Nuance
Se o seu software for apenas Windows, pode usar a API Microsoft Speech.
Usei as vozes naturais da AT & T que fornecem ganchos JSAPI e MS SAPI. Ele fornece vozes de excelente qualidade, um bom dicionário de fala "geral", muitos controles sobre a pronúncia, e várias línguas. É um pouco caro, mas funciona muito bem.
Usei-o para ler telemetria de sensores importantes para os controladores numa aplicação de sensores móveis. Não tivemos queixas sobre a qualidade da voz. Tinha cerca de 75% de exatidão fora da caixa com termos científicos e um muito maior (talvez 90%+) com um diálogo normal. Nós conseguimos até cerca de 99+% de precisão usando markups (a maioria dos erros foram em termos científicos com combinações de fonemas incomuns). Foi um pouco difícil para o processador (estávamos rodando em uma máquina equivalente Pentium-III e estava empurrando CPU de pico de 50% a 75%). Isto usa um motor de fala nativo (compatível com Windows, Linux e Mac) com uma interface Java. Há uma grande variedade de vozes e línguas...java -jar freetts.jar some-more-args-here
, ele significa palavras menores do que quando está sendo executado de uma maneira de bin/servidor.jar e bin / cliente.frasco.
Achei pouco confortável com MarryTTS tem várias línguas e voz clara para entender.
To convert speech to text, the better option is sphinx4-5prealpha . Eu dou um polegar, porque ele tem ajustável, flexibilidade e modificável reconhecedor e gramática.