Fabio Baccaglioni

En menos de una década los reconocimientos de voz pasaron de ser relativamente útiles a sorprender a más de uno y hoy a poder seguir sorprendiendo pero sin siquiera conectarse a la red.

Esta es una de las características más pedidas por casi todos, que no exista delay de red, que no tenga que resolver el problema una enorme granja de servidores en la nube sino un simple teléfono.

Con "simple teléfono" también estamos siendo irónicos porque hoy hablamos de hasta ocho núcleos a 2GHz, 4GB de RAM y semejantes en teléfonos de gama media, algo que en los comienzos no era precisamente algo que existiera.

Google parece tener resuelto en parte esto con un nuevo modelo para el reconocimiento de voz que compactado puede ocupar unos 80Mb de espacio en un teléfono y ofrecer un proceso casi inmediato sin interrupciones. El modelo matemático es mucho más grande así que Google también trabajó notablemente en achicarlo comprimiéndolo y convirtiéndolo a otros modelos para llegar a este espacio que, siendo tan pequeño, entra hasta en un teléfono de gama baja.

El modelo utilizado, End-to-end (E2E), hasta terminó como paper publicado por Google y es una gran ventaja que sólo los dueños de un Pixel 3 podrán experimentar en el corto plazo pero que, seguramente, en un tiempo lo veamos en cualquier equipo ya que es una ventaja muy por encima de Siri o Alexa.

Obviamente este modelo sólo está entrenado en inglés americano, olvídense de nuestro idioma aunque sea de los más hablados del mundo, creo que el español sólo está por detrás del mandarín, pero así las cosas, siempre se hace todo primero en inglés.

Es muy interesante el posteo de Google al respecto por si les interesa indagar un poco más en el modelo utilizado y el método de compresión.

Comentarios

Deje su comentario:

(comentarios ofensivos o que no hagan al enriquecimiento del post serán borrados/editados por el administrador sin previo aviso)

Security Image

Negrita Cursiva Imagen Enlace