Voz a texto en Mac: la guía completa 2026
Voz a texto en Mac en 2026: cómo funciona, en el dispositivo vs nube, el papel de la IA, precios y cómo elegir la app de dictación que realmente se adapta a tus necesidades.
Hablar es tres o cuatro veces más rápido que escribir, y le da un respiro a tus muñecas. Sin embargo, mucha gente abandona la dictación en Mac después de dos intentos: la Dictación de Apple escupe un muro de texto sin puntuación, las apps en la nube envían tu voz a quién sabe dónde, y todas las herramientas parecen exigir una suscripción. En 2026, el panorama ha madurado considerablemente — sobre todo gracias a la IA que limpia el texto al vuelo. Esta guía lo expone todo de forma llana: cómo funciona, adónde van tus datos, qué cuestan las opciones y cómo elegir sin equivocarte.
Cómo funciona el reconocimiento de voz en 2026
Una app de dictación moderna encadena dos pasos muy distintos, y distinguirlos hace que todo lo demás encaje.
- Transcripción (voz a texto). Un modelo de reconocimiento de voz convierte el audio en palabras brutas. La referencia de código abierto es Whisper (de OpenAI), pero Apple, Google y otros tienen los suyos propios. Este paso determina la precisión palabra por palabra.
- Reescritura (post-procesado con IA). Un modelo de lenguaje (LLM) toma ese texto bruto, elimina los “eeh” y las repeticiones, añade puntuación, corrige mayúsculas y puede adaptar el tono al contexto. Este es el paso que convierte un transcripto utilizable en texto realmente listo para publicar.
La Dictación de Apple integrada en macOS se detiene principalmente en el paso 1. Las apps recientes destacan sobre todo en el paso 2 — ahí es donde se manifiesta realmente la diferencia de calidad que se analiza a continuación.
En el dispositivo vs nube: el compromiso real
Esta es la decisión más importante. Enfrenta dos filosofías, cada una con compromisos honestos.
| Criterio | Local (en el dispositivo) | Nube |
|---|---|---|
| Privacidad | El audio nunca sale de tu Mac | El audio se envía a servidores externos |
| Uso sin conexión | Funciona sin conexión a internet | Requiere conexión |
| Calidad de reescritura | Buena, limitada por la potencia de tu Mac | A menudo superior (modelos más grandes) |
| Carga de CPU | Consume CPU/Motor Neural | Casi nula — procesado en remoto |
| Coste continuo | Ninguno (modelo incluido) | Variable (API o suscripción) |
En Apple Silicon, el Motor Neural hace que la transcripción 100% local sea genuinamente viable, con calidad offline real. Por el contrario, la nube da acceso a los modelos más potentes para la reescritura, sin cargar tu Mac. Existe una tercera vía híbrida: transcribir mediante una API que tú eliges, sin almacenar nunca el audio — ese es el enfoque BYOK que se explica más adelante.
El papel de la IA: por qué el texto dictado se volvió limpio
Hasta hace poco, dictar significaba limpiar después. El punto de inflexión fue la entrada de los LLMs en el proceso. En la práctica, una buena capa de IA:
- Elimina las palabras de relleno (“eeh”, “o sea”, arranques en falso) en lugar de transcribirlas literalmente.
- Añade puntuación y estructura sin que tengas que decir “coma” o “punto” en voz alta.
- Adapta el tono a la app: frases concisas en un chat, redacción pulida en un correo, jerga correcta en un editor de código.
- Gestiona la mezcla de idiomas, útil si cambias entre inglés y español a mitad de frase.
Eso es exactamente lo que Speech Flow busca: mantienes Ctrl pulsado, hablas, sueltas, y el texto limpio se inserta en el cursor dentro de cualquier app. Para profundizar en este paso concreto, consulta nuestro artículo sobre limpiar texto dictado con IA.
¿Cuánto cuesta en 2026?
Coexisten tres modelos de precios. Ninguno es “el mejor” en abstracto — todo depende de con qué frecuencia dictas.
- Suscripción todo incluido (~€10–15/mes). Todo incluido, nada que configurar. Cómodo, pero no para nunca: calcula €120–180 al año, para siempre.
- Compra única / licencia de por vida (~€20–250 una vez). Pagas una vez y te quedas con la app. Ideal si dictas regularmente a largo plazo.
- BYOK (trae tu propia clave). Pagas la app una vez, luego tus propias claves API al coste real de uso — a menudo unos céntimos por hora de dictación. Lo más económico para uso intensivo, siempre que estés dispuesto a un pequeño paso de configuración inicial — explicado en nuestro artículo ¿qué es BYOK?.
La matemática es sencilla: con una suscripción, el total sube cada mes; con una compra única o BYOK, se estabiliza rápidamente. Para uso diario durante varios años, la vía sin suscripción casi siempre gana.
Cómo elegir: cuatro preguntas
En lugar de un ranking universal, responde estas preguntas en orden.
- ¿Te molesta el procesado en la nube? Si tu voz nunca debe salir de tu máquina, apunta al 100% local — o al BYOK sin almacenamiento, que te da el control de otra manera.
- ¿Dictas a menudo sin conexión? Trenes, aviones, zonas sin cobertura: solo lo local lo resuelve de verdad.
- ¿Comprar una vez o alquilar? Uso regular a lo largo del tiempo → compra única o BYOK. Uso ocasional sin ganas de trastear → suscripción.
- ¿Solo Mac o multiplataforma? Las apps nativas de macOS no te siguen a Windows ni al móvil. Si cambias entre sistemas, una solución en la nube multiplataforma mantiene una ventaja real — consulta nuestra comparación de Speech Flow vs Wispr Flow.
Un último criterio infravalorado: el tipo de app. Una app nativa suele pesar ~50 MB y arranca rápido; una app Electron incluye un navegador entero (~800 MB, más RAM). En un Mac, lo nativo marca una diferencia real en el día a día.
Preguntas frecuentes
¿La dictación por voz en Mac es gratuita?
Sí, la Dictación de Apple viene integrada y es gratuita. Funciona bien para notas cortas, pero no limpia el texto ni añade puntuación de forma fiable. Una app con una capa de IA toma el relevo en cuanto escribes más de unas pocas líneas.
¿La dictación con IA respeta mi privacidad?
Depende de cómo se procesa. Las apps totalmente en la nube envían tu audio a sus servidores. Un enfoque local (nada sale de tu Mac) o BYOK sin almacenamiento (tu voz solo pasa por el proveedor de API que elegiste y luego desaparece) te mantiene en control de tus datos.
¿Whisper es local o en la nube?
Ambos. Whisper es un modelo de código abierto: puede ejecutarse localmente en tu Mac o llamarse mediante una API (por ejemplo en OpenAI o Groq). Es el despliegue lo que determina adónde va tu voz, no el modelo en sí.
Si buscas un equilibrio entre simplicidad, privacidad y precio en Mac, Speech Flow reúne lo esencial: nativa, ~50 MB, tus propias claves (BYOK), sin audio almacenado, €69 de por vida — o un plan todo incluido si prefieres saltarte toda la configuración. Explorar los planes →. Solo es la opción adecuada si “solo Mac Apple Silicon” encaja contigo.