Búsqueda por voz y conversacional: principales desafíos y cómo superarlos

  • HatumSEO
  • SEO
  • Búsqueda por voz y conversacional: principales desafíos y cómo superarlos

Contenidos

Lea esta descripción general completa de la voz y la búsqueda integral tal como son hoy, los desafíos que plantea y cómo superarlos.

Durante un tiempo, parecía que cada año diríamos “el año que viene será el año de la voz”, como ocurría con el móvil. Hasta el año pasado, según el estudio barómetro global anual de Google, 2017 se convirtió en «el año de la mayoría móvil». Google’s Annual Global Barometer Study,

Ciertamente no faltan predicciones sobre el uso futuro de la voz. no shortage of predictions on future voice usage

En 2016, el 20 por ciento de las consultas realizadas en dispositivos móviles fueron de voz, como se anunció en Google I/O 2016. announced at Google I/O 2016

Según ComScore, para 2020, se espera que el 50 por ciento de las búsquedas sean impulsadas por voz. according to ComScore

Si el interés de Google Trends a lo largo del tiempo en los términos de búsqueda «Google Home» y «Alexa» es una indicación, los dispositivos sin ojos acaban de irrumpir en nuestras vidas con una explosión festiva.

Se espera que en 2018 se envíen más de 50 millones de altavoces inteligentes, según un informe de Canalys publicado el día de Año Nuevo. according to a Canalys report

Sin duda, las agresivas estrategias de ventas durante el período navideño tanto de Amazon como de Alphabet (la empresa matriz de Google) para mover los altavoces inteligentes en masa contribuyeron en gran medida.

Después de que Amazon redujera los precios de Amazon Echo y Echo Dot, Google hizo lo mismo y recortó los precios el Black Friday de los altavoces inteligentes Home y Home Mini. slashing prices on Black Friday

Si bien los analistas predicen que ambas empresas alcanzaron un equilibrio o tuvieron pérdidas, el interés de Google Trends demostró una curva de palo de hockey. While analysts predict

‘Tweets de temporadas’

Si el objetivo era provocar una interacción masiva con los dispositivos durante las reuniones familiares estacionales, esto parece haber funcionado.

Las redes sociales gritaban: “Hazte a un lado Cluedo, charadas y Monopoly… hay un nuevo juego de salón en la ciudad y se llama Google Home y Alexa”.

Un vídeo de YouTube de una abuela italiana de 85 años “asustada” de “Goo Goo”, como ella lo llamaba, rompió Internet y ha acumulado más de 2 millones de visitas hasta el momento.

No se pudo incrustar.

La gente en Twitter “se asustó” ante la “magia” de los parlantes inteligentes, con un tweet anecdótico que se volvió viral en Home y Alexa aparentemente comunicándose espontáneamente entre sí desde lados opuestos de una habitación.

Bustle afirmó que un representante de Amazon explicó las razones técnicas detrás de «la magia» después del tuit.  Programación meramente explicable y activación automática de palabras de acción (o “palabras calientes”) y respuestas secuenciales por parte de ambos dispositivos. Bustle claimed

Desafíos de la búsqueda conversacional y los humanos

Las máquinas son predecibles;

En la búsqueda conversacional, los usuarios hacen preguntas de formas oscuras e impredecibles. Las preguntan sin contexto, de muchas maneras diferentes, y también hacen preguntas imposibles de responder.

Amit Singhal dio un ejemplo humorístico en una entrevista con Guy Kawasaki en 2013, explicando cómo los usuarios hacen preguntas como «¿Mi cabello me hace ver mal?» Amit Singhal gave a humorous example

Desafortunadamente, incontestable.

Google ha creado un Centro de ayuda con instrucciones sobre cómo activar diferentes tipos de respuestas del asistente, pero ¿quién lee realmente las instrucciones cuando adquirimos un nuevo dispositivo? produced a Help Center

Con Assistant y Home, es posible que los humanos no digan las palabras de “acción” necesarias para activar los parlantes inteligentes, como “reproducir” y “recordatorio”, y en su lugar pueden recibir listas de pistas recitadas como respuesta.

Asimismo, la comprensión y extracción de los datos adecuados para atender la consulta podrá realizarse sin éxito por parte del buscador.

Mejoras en la tecnología de reconocimiento de voz

Definitivamente, Google está mejorando en el reconocimiento de voz, con tasas de error casi a la par de las de los humanos, como afirma Sundar Pichai de Google. getting better at voice recognition

Mi colega del Search Engine Journal, Aleh Barysevich, habló sobre esto recientemente También sabemos que el informe anual de Tendencias de Internet de Mary Meeker confirmó que el reconocimiento de voz está mejorando rápidamente.

El «reconocimiento» de voz no es «comprensión»

Sin embargo, simplemente porque los motores de búsqueda han encontrado una manera de reconocer voces y palabras, comprender realmente los significados y el contexto para obtener respuestas habladas estándar de oro de manera adecuada todavía plantea desafíos.

¿Y qué respuestas se están dando?

Está claro que pronto tendremos que poder ver algunos datos de consultas de voz.

La atribución multiplataforma y multidispositivo y las conversiones asistidas deben medirse comercialmente si estamos generando respuestas y brindando información útil, y necesitamos poder ver qué tan lejos estamos de que se nos considere un buen resultado, por lo que

Actualmente hay muy poca o ninguna visibilidad disponible, aparte de que sabemos que está sucediendo.

A continuación, Glenn Gabe ilustró algunas consultas que aparecen en Google Search Console (tal vez solo para los probadores beta), pero que aún no están separadas de la web escrita para escritorio y para dispositivos móviles).

Sin embargo, como mencionó Barysevich, John Mueller de Google se acercó a principios de diciembre a la comunidad de SEO a través de Twitter sobre posibles casos de uso de datos en Google Search Console. 

Muchas preguntas

Una cosa es segura Los usuarios de los motores de búsqueda hacen MUCHAS preguntas.

Según el «Año en búsquedas» global anual publicado recientemente por Google, en 2017 preguntamos «¿cómo?» annual Global ‘Year in Search’

No se pudo incrustar.

No es de extrañar, entonces, que se esté llevando a cabo una gran cantidad de investigaciones académicas y de la industria sobre la extracción y el análisis de textos de preguntas y respuestas de la comunidad, con una selección de artículos de una de las principales conferencias de recuperación de información, la Conferencia de búsqueda web y minería de datos (WSDM), un pequeño ejemplo:

Directrices para los evaluadores del asistente y la búsqueda por voz de Google

Algo que resulta útil para ayudarnos a comprender qué se considera un buen resultado hablado son las Directrices para evaluadores de calidad de asistentes y búsqueda por voz, publicadas en diciembre de 2017. La guía está diseñada para que los evaluadores humanos marquen la calidad de las consultas de voz y los resultados de las palabras de acción del Asistente como una parte importante del ciclo de retroalimentación sobre la calidad de la búsqueda.

A continuación se muestra un ejemplo de cómo se ve una falla en la búsqueda por voz según las Pautas de evaluadores de Google:

Proposition: [will it rain this evening?]

Response: “I’m not sure how to help with that.”

Suggested Rating: Fails to Meet

Rater Guidelines Further Commentary: The device failed to answer the query. No users would be satisfied with this response.

Proposición: [¿lloverá esta noche?]

Respuesta: «No estoy seguro de cómo ayudar con eso».

Calificación sugerida: No cumple

Directrices para evaluadores Comentarios adicionales: El dispositivo no respondió a la consulta Ningún usuario estaría satisfecho con esta respuesta.

No he podido encontrar cifras sobre esto, pero sería interesante saber con qué frecuencia Google Home o el Asistente en el móvil dicen «Lo siento, no puedo ayudarte con eso» o «No entiendo».

Me comuniqué con John Mueller de Google en Twitter para preguntarle si había cifras disponibles, pero no respondió. John Mueller

Como era de esperar, sí.

No me imagino que ningún motor de búsqueda quiera que los usuarios sepan que no pueden responder con una respuesta que satisfaga su necesidad de información (es decir, cuando la respuesta fue «Lo siento, no puedo ayudar con eso» o «No puedo ayudar con eso»). Casi podría ser similar a la vergüenza de los motores de búsqueda en la búsqueda basada en URL cuando un usuario hace clic y obtiene un resultado incorrecto. search engine embarrassment

Además, Rob May en Twitter también comentó que es poco probable que las cifras estén disponibles por las mismas razones mencionadas anteriormente. Rob May

Rob May

En la guía para evaluadores, también se proporcionan ejemplos de cómo se ve “bueno”, con calificaciones sugeridas sobre los atributos de extensión, formulación y elocución, además de si se logró la satisfacción informativa, y algunos comentarios explicativos adicionales.

Esto es lo que dice la guía de evaluadores sobre cada uno de estos atributos:

  • Information Satisfaction: The content of the answer should meet the information needs of the user.
  • Length: When a displayed answer is too long, users can quickly scan it visually and locate the relevant information. For voice answers, that is not possible. It is much more important to ensure that we provide a helpful amount of information, hopefully not too much or too little. Some of our previous work is currently in use for identifying the most relevant fragments of answers.
  • Formulation: It is much easier to understand a badly formulated written answer than an ungrammatical spoken answer, so more care has to be placed in ensuring grammatical correctness.
  • Elocution: Spoken answers must have proper pronunciation and prosody. Improvements in text-to-speech generation, such as WaveNet and Tacotron 2, are quickly reducing the gap with human performance.

A partir de los ejemplos proporcionados en la guía, los profesionales de SEO también pueden hacerse una idea del tipo de respuesta que se considera de alta calidad.

Spoiler: Es aquel que satisface necesidades informativas, en respuestas breves, gramaticalmente correctas (sintácticamente bien formadas) y con pronunciación precisa.

Parece sencillo, pero podemos obtener más información para ayudarnos a atender la búsqueda por voz.

Tenga en cuenta «Algunos de nuestros trabajos anteriores»

Notarás que se hace referencia breve a “Parte de nuestro trabajo anterior” sobre el tema de la “extensión” y cómo Google lo está manejando para la búsqueda por voz y el asistente.

El trabajo es «Compresión de oraciones mediante eliminación con LSTM». “Sentence Compression by Deletion with LSTMs”

Es un trabajo importante, que Wired explica diciendo que «han aprendido a tomar una oración o un párrafo largo de una página relevante en la web y extraer el resultado: la información que estás buscando». which Wired explains

Uno de los investigadores clave detrás de esto es Enrique Alfonseca, parte del equipo de investigación de Google en Zurich. Alfonseca está bien posicionada como autoridad en el tema de búsqueda conversacional y procesamiento del lenguaje natural, con varios artículos publicados. Enrique Alfonseca

Escuela europea de verano sobre recuperación de información 2017

El verano pasado asistí a una conferencia de Alfonseca. Formó parte de una mezcla de investigadores académicos y de la industria de empresas como Facebook, Yahoo y Bloomberg durante la bienal Escuela Internacional Europea de Verano en Recuperación de Información (ESSIR). European International Summer School in Information Retrieval (ESSIR). 

La conferencia de Alfonseca dio una idea de algunos de los desafíos actuales que enfrenta Google al proporcionar resultados estándar de oro (lo mejor en términos de recuperación de información) de alta calidad para los usuarios de búsquedas conversacionales.

Existe cierto cruce entre las pautas de los evaluadores y lo que ya sabemos sobre la búsqueda por voz. Sin embargo, el enfoque principal y los puntos clave de la conferencia de Enrique en general pueden brindar más información para reforzar y complementar.

Alfonseca, en sus palabras finales, señaló que se necesitaba una mejor clasificación para la búsqueda conversacional porque el usuario tiende a centrarse en una sola respuesta.

Esto también se discutió en una entrevista del podcast de Voicebot con Brad Abrams, gerente asistente de producto de Google, quien dijo que, en el mejor de los casos, solo se devolverán 2 o 3 respuestas. Entonces, sólo puede haber uno, dos o tres.

Una cosa es segura Necesitamos toda la información que podamos conseguir para competir.

Algunas conclusiones clave de la conferencia

  • Se necesita una mejor clasificación porque el usuario tiende a centrarse en una sola respuesta.
  • Una respuesta confusa al final es el peor escenario posible.
  • Todavía no existe una buena manera de leer una respuesta de una tabla.
  • Entidades de Knowledge Graph (esquema) primero, texto web a continuación.
  • Se necesita una mejor comprensión de las consultas, en contexto.
  • No hay reordenamiento en la búsqueda por voz, ni parafraseo, solo extracción y compresión.
  • Las conversaciones de varios turnos siguen siendo un desafío.
  • Los lingüistas construyen léxicos manualmente en lugar de automatizarlos.

Es evidente que existen algunas diferencias en la búsqueda por voz en comparación con la búsqueda escrita basada en teclado o en el escritorio.

Exploración adicional de los puntos clave de la conferencia

Podemos analizar cada uno de los puntos de la conferencia con un poco más de detalle y extraer algunas ideas:

La respuesta confusa al final es el peor escenario posible

Esto analiza el atributo de longitud y cierta formulación y presentación y se relaciona bastante con las pautas de los evaluadores. Enfatiza la necesidad de responder la pregunta al principio de un documento, párrafo u oración.

La guía de evaluadores también se centra en que las respuestas breves sean clave.

Alfonseca explicó: “En la búsqueda por voz, una respuesta incoherente al final es el peor escenario posible Se lee bien, pero suena horrible en la voz”.

Presumiblemente, esto se debe a que no se devuelve ninguna respuesta, lo cual es un completo fracaso.

Esto indica la necesidad de una segunda estrategia separada para la búsqueda por voz, además de la búsqueda en el escritorio y el teclado.

No existe una buena forma de leer tablas en la búsqueda por voz

«Actualmente no existe una buena manera de leer tablas en la búsqueda por voz», compartió Alfonseca.

Esto es importante porque sabemos que en los fragmentos destacados, las tablas proporcionan una estructura y una presentación sólidas a través de datos tabulares y pueden funcionar bien, mientras que, debido a la dificultad para traducirlos en oraciones bien formuladas, pueden funcionar mucho menos bien en la búsqueda por voz.

Pete Meyers de Moz realizó recientemente un estudio de búsqueda por voz de 1000 preguntas y descubrió que solo el 30 por ciento de las respuestas procedían de tablas en fragmentos destacados. Meyers teorizó que la razón puede ser que los datos tabulares no sean fáciles de leer, y Alfonseca lo confirma aquí. did a voice search study of 1,000 questions

En primer lugar, las entidades del gráfico de conocimiento, en segundo lugar el texto web y se necesita una mejor comprensión de las consultas, en contexto

Voy a analizar estos dos puntos juntos porque me parece que uno está muy relacionado e importante con el otro.

Entidades del gráfico de conocimiento primero, texto web en segundo lugar

La página web de búsqueda por voz Inside Search de Google nos dice: Google’s Inside Search voice search webpage

“Voice search on desktop and the Google app use the power of the Knowledge Graph to deliver exactly the information you need, exactly when you need it.”

«La búsqueda por voz en el escritorio y la aplicación de Google utilizan el poder de Knowledge Graph para brindar exactamente la información que necesitas, exactamente cuando la necesitas». Knowledge Graph

Más recientemente, Google compartió en su publicación de blog para webmasters de diciembre Evaluación del habla para Google el contenido de la respuesta de voz a veces proviene de la web.  Evaluation of Speech for Google

Junto con la conferencia de Alfonseca, no estaría de más considerar que muchas de las respuestas restantes provienen de páginas web normales además del Knowledge Graph.

Alfonseca compartió con nosotros que el Gráfico de conocimiento (esquema) se verifica primero para las entidades cuando se proporcionan respuestas en la búsqueda conversacional, pero cuando no hay ninguna entidad en el Gráfico de conocimiento, la búsqueda de conversación busca respuestas en la web.

Es de suponer que gran parte de esto se relaciona con las respuestas que aparecen en los fragmentos destacados; sin embargo, Meyers señaló que hay algunas respuestas cuya fuente no compartió los fragmentos destacados. Encontró sólo el 71 por ciento de los fragmentos destacados asignados a las respuestas en su estudio de 1.000 preguntas con Google Home. 71 percent of featured snippets

Sabemos que existen varios tipos de datos que podrían extraerse para la búsqueda conversacional de la web:

  • Datos estructurados (tablas y datos almacenados en bases de datos)
  • Datos semiestructurados (XML, JSON, metatítulos [h1-h6])
  • Datos enriquecidos semánticamente (esquema marcado, entidades)
  • Datos no estructurados (copia de texto web normal)

Si las respuestas de la búsqueda por voz se extraen de datos no estructurados en páginas web normales, además de entidades y fragmentos destacados mejor formados, aquí podría ser donde las cosas se complican y carecen de contexto.

Hay una serie de problemas con los datos no estructurados en las páginas web. Como:

  • Los datos no estructurados son sueltos y confusos Es difícil entender de qué se trata para una máquina, aunque es posible que los humanos podamos entenderlo bien.
  • Está casi desprovisto de estructura o forma jerárquica o temática. Peor aún si no hay una sección del sitio web bien estructurada y páginas relacionadas por temas para heredar la relación.
  • El volumen es un problema Hay una gran cantidad de eso.
  • Es ruidoso y escasa categorización en temas y tipos de contenido.

Aquí es donde la relación y la desambiguación importan mucho

La desambiguación sigue siendo un problema y una mayor comprensión contextual es vital En sus palabras finales, Alfonseca destacó que uno de los desafíos es que “se necesita una mejor comprensión de las consultas, en contexto”.

Si bien sabemos que el contexto del usuario (búsqueda contextual como ubicación, objetos circundantes, historial de búsqueda anterior, etc.) es parte de esto, también existe la importante cuestión de la desambiguación tanto en la interpretación de consultas como en la desambiguación de palabras en el texto cuando

No es sólo el contexto del usuario lo que importa en la búsqueda, sino el contexto ontológico del texto, las secciones del sitio y la coexistencia de palabras lo que agrega valor semántico para que los motores de búsqueda comprendan y eliminen la ambigüedad del significado.

Esto también se aplica a todos los aspectos de la búsqueda (aparte de la voz), pero puede ser incluso más importante (y difícil) para la búsqueda por voz que la búsqueda escrita basada en teclado.

Palabras que podrían tener múltiples significados y personas dicen cosas que significan lo mismo de muchas maneras, pero también, tal vez porque solo se toman fragmentos de información de una página, con palabras funcionales irrelevantes eliminadas, en lugar de la página como un todo.

Existe el argumento de que las palabras contextuales circundantes y la relación con un tema para la búsqueda por voz serán más importantes que nunca para agregar relevancia antes de la extracción y eliminación.

Es importante señalar aquí que Alfonseca también es investigador detrás de varios artículos publicados sobre similitudes y relaciones en el procesamiento del lenguaje natural.

Un trabajo importante del que es coautor es “Un estudio sobre similitudes y relaciones utilizando enfoques distributivos y basados ​​en Wordnet” (Agirre, E., Alfonseca, E., Hall, K., Kravalova, J., Paşca, M y Soroa, A., 2009). “A Study on Similarity and Relatedness Using Distributional and Wordnet-Based Approaches”

¿Qué es la relación?

Las palabras sin contexto semántico no significan nada.

La “relación” brinda a los motores de búsqueda más pistas sobre el contexto del contenido para aumentar la relevancia de un tema, reforzada aún más a través de vectores de co-ocurrencia y palabras comunes vinculadas que aparecen juntas en documentos o colecciones de documentos.

Es importante señalar que la relación en este sentido no se refiere a relaciones entre entidades (predicados), sino como una forma de eliminar la ambigüedad del significado en una gran cantidad de información basada en texto (una colección de páginas web, una sección de un sitio, un subdominio, un dominio o incluso un grupo).

La relación es de naturaleza mucho más laxa que las relaciones entre entidades claramente vinculadas y conectadas y puede ser difusa (débil) o fuerte.

La relación se deriva de la lingüística Firthiana, llamada así en honor a John Firth, quien defendió la noción de conciencia semántica del contexto en lingüística y siguió el antiguo principio contextual de Frege…”nunca… preguntes por el significado de una palabra de forma aislada, sino sólo en el contexto.

Firth se asocia ampliamente con la desambiguación en lingüística, afinidad y la frase:

“You shall know a word by the company it keeps.”

«Conocerás una palabra por la compañía que tiene».

Si pudiéramos equiparar esto con usted, puede entender el significado de la palabra cuando hay más de un significado por lo que otras palabras viven cerca de ella o tienen palabras que comparte con otras en las mismas colecciones de texto, sus vectores de co-ocurrencia.

Por ejemplo, una palabra ambigua podría ser jaguar.

Comprender si un cuerpo de texto se refiere a un jaguar (gato) o a un jaguar (automóvil) se logra a través de vectores de co-ocurrencia (palabras que probablemente compartan la misma compañía).

Para volver a la noción de Firth;

Por ejemplo, es muy probable que un jaguar (gato) aparezca en páginas que traten sobre comida para gatos, perros, gatitos, cachorros, pieles, tigres, zoológicos, safaris, gatos y felinos, patas o animales versus un jaguar (automóvil) y

Por ejemplo, aquí podemos ver que “coche” tiene cinco significados diferentes:

Como seres humanos, probablemente sabríamos de inmediato a qué automóvil se hace referencia.

El desafío es que las máquinas también entiendan el contexto del texto para comprender si «automóvil» significa un teleférico, un vagón de ferrocarril, una góndola, etc. al comprender consultas o devolver resultados de datos no estructurados sueltos y desordenados, como un gran

Esta comprensión sigue siendo un desafío para la búsqueda por voz (y a menudo también en la búsqueda normal), pero parece particularmente problemática para la búsqueda por voz. Después de todo, es pronto.

Parafraseando: no hay ninguno con la búsqueda por voz

Con palabras escritas en fragmentos destacados y paneles de conocimiento, se produce la paráfrasis.

Alfonseca dio el siguiente ejemplo, que muestra la paráfrasis utilizada en formato escrito en fragmentos destacados.

Pero con la búsqueda por voz, Alfonseca nos dijo: “No hay reordenamiento en la búsqueda por voz; Sin parafrasear”.

Esto es importante porque para parafrasear uno debe conocer el significado completo de la pregunta y la respuesta para devolverla con diferentes palabras (a menudo menos), pero con el mismo significado.

No puedes hacer esto con precisión a menos que exista una comprensión contextual. Esto enfatiza aún más la falta de comprensión contextual detrás de la búsqueda por voz.

Esto también puede contribuir a explicar por qué todavía hay preguntas o propuestas que aún no han sido respondidas en la búsqueda por voz.

No es porque la respuesta no esté ahí, es porque se preguntó de manera incorrecta o no se entendió.

Esto se tiene en cuenta en la búsqueda escrita de escritorio o móvil porque existen varias técnicas de modificación de consultas para expandir o relajar la consulta y reescribirla para proporcionar algunas respuestas, o una colección de al menos respuestas competitivas.

No está claro si esto es una limitación de la búsqueda por voz o si tiene la intención de que ninguna respuesta sea mejor que la respuesta incorrecta cuando se pueden obtener tan pocos resultados, en comparación con los 10 enlaces azules que los usuarios pueden refinar aún más en la búsqueda de escritorio.

Esto significa que debe estar bastante concentrado en proporcionar la respuesta específica de la manera correcta porque las palabras se eliminarán pero no se agregarán (expansión de consultas) ni se reordenarán (reescritura de consultas).

Además, en el chat de Twitter que siguió a mi solicitud sobre consultas sin respuesta a John Mueller, Glenn Gabe mencionó que había estado haciendo algunas pruebas de preguntas en Google Home, que ilustraban este tipo de diferencias entre la búsqueda por voz y la web normal.

Glenn Gabe on different results on home and desktop

El sistema normal de interpretación de consultas en la recuperación de información podría verse así, y se producen varias transformaciones. (Esto no fue proporcionado por Alfonseca sino que fue una diapositiva de uno de los otros profesores de ESSIR Sin embargo, es ampliamente conocido en la recuperación de información).

Verá que la reescritura de consultas es una parte clave del proceso de manipulación de consultas en formato escrito en la recuperación de información. No debe confundirse con el refinamiento de consultas, que se refiere a que los usuarios refinan aún más las consultas iniciales a medida que vuelven a enviar términos más específicos en el camino para completar su tarea de necesidades de información.

Y aquí hay un ejemplo típico de reescritura de consultas desde IR:

Si algunas o todas estas transformaciones no están presentes actualmente en la búsqueda por voz, esto podría resultar limitante.

Un ejemplo de esto es la gramática y la ortografía.

El trabajo de “Compresión de oraciones mediante eliminación con LSTM”, denominado “nuestro otro trabajo” en las pautas, parece sacrificarse al eliminar palabras funcionales sintácticas que todavía se usan con otras técnicas de compresión para evitar errores gramaticales o ortográficos.

Las Directrices para evaluadores dicen:

Formulation: it is much easier to understand a badly formulated written answer than an ungrammatical spoken answer, so more care has to be placed in ensuring grammatical correctness.

Formulación: es mucho más fácil entender una respuesta escrita mal formulada que una respuesta hablada que no sea gramatical, por lo que hay que tener más cuidado en garantizar la corrección gramatical.

La gramática importa más en la búsqueda por voz conversacional hablada que en la forma escrita.

En forma escrita, Google ha confirmado que la gramática no afecta el SEO ni las clasificaciones. Sin embargo, es posible que esto no se aplique a los fragmentos destacados. Ciertamente es importante para la búsqueda por voz. grammar does not impact SEO and rankings

Es probable que los algoritmos fonéticos se utilicen en la búsqueda escrita para identificar palabras que suenan similares, incluso si su ortografía difiere en la forma escrita, como el algoritmo Soundex o una variación similar de algoritmos fonéticos (como el más moderno «algoritmo de doble metafono», que es en parte Soundex algorithm

Aquí hay un ejemplo del Asistente de hechizos de Aspell:

Conversaciones de varios turnos

Alfonseca explicó que las conversaciones “de múltiples turnos” siguen siendo un desafío Un solo turno es cuando se hace una pregunta y se devuelve una (o tal vez dos) respuestas a esa única pregunta o proposición. Turno múltiple se relaciona con más de una pregunta secuencial.

Un área problemática es cuando las preguntas de varios turnos probablemente se refieren a preguntas que posteriormente se basan en pronombres en lugar de nombrar entidades en preguntas posteriores.

Un ejemplo podría ser:

  • “¿Qué hora es en Londres?”
  • «¿Cómo es el clima ahí?»

En este caso, «allí» se relacionaría con Londres. Esto depende de que el dispositivo recuerde la pregunta anterior y la asigne a la segunda pregunta y al pronombre «allí».

Resolución anafórica y catafórica

Una parte importante de los desafíos aquí pueden estar relacionados con problemas con algo llamado resolución anafórica y catafórica (un desafío conocido en lingüística), e incluso podemos ver ejemplos en la guía de evaluadores que parecen referirse a estos problemas cuando las entidades nombradas se eliminan de

Algunos de los ejemplos proporcionados dan casos similares a anáfora y catafora cuando se hace referencia a una persona fuera de contexto, o con pronombres como ella, él, ellos, ella, después o antes de que su nombre haya sido declarado más adelante en una oración o párrafo. Cuando agregamos varias personas a estas respuestas, esto se vuelve aún más problemático en preguntas de varios turnos.

Para mayor claridad, he agregado un poco más de información de apoyo para explicar la anáfora y la catáfora.

Siempre que podamos, deberíamos intentar evitar los pronombres en las respuestas cortas a las que nos dirigimos en la búsqueda por voz.

Construcción de léxicos lingüísticos

Alfonseca confirmó que la construcción del léxico del idioma aún no está masivamente automatizada.

Actualmente, los lingüistas construyen manualmente los léxicos del idioma, etiquetando los datos (probablemente usando etiquetado de parte del discurso (POS) o etiquetado de entidad nombrada (NE), que identifica palabras en un cuerpo de texto como sustantivos, adjetivos, sustantivos en plural, verbos, part of speech (POS) tagging or named entity (NE) tagging

En una entrevista con Wired sobre el tema, Dave Orr, Product Manager de Google en búsqueda conversacional y Asistente de Google, también confirma este proceso manual y el entrenamiento de redes neuronales por parte de doctores humanos. Lingüistas que utilizan datos elaborados a mano. Wired informa que Google se refiere a este enorme equipo como «Pygmalion». Wired

Google también, nuevamente, se refiere al trabajo en esta entrevista de su ‘Evaluación del habla para Google como «conocimiento lingüístico explícito y soluciones de aprendizaje profundo».

Además, Orr responde algunas preguntas interesantes en Quora sobre la clasificación de datos y redes neuronales. Deberías seguirlo hasta allí. some interesting questions on Quora

Capas de comprensión y generación

Además de estos puntos principales de la conferencia, Enrique compartió con nosotros ejemplos de las diferentes capas de comprensión y generación involucradas en la búsqueda conversacional y acciones cuando se integra con el asistente de Google.

Aquí hay un ejemplo que compartió que busca comprender dos consultas de conversación secuenciales y luego establecer un recordatorio de cuándo es el partido del Manchester City.

Tenga en cuenta que la pregunta «¿Contra quién juega el Manchester City y cuándo?» Podemos ver que esto es una combinación de entidades y extracción de texto.

Cuando tomamos esto y lo combinamos con la información de la guía de evaluadores y el trabajo de investigación sobre compresión de oraciones por eliminación con LSTM, posiblemente podamos hacer un dibujo:

Se buscan entidades del Gráfico de conocimiento y (cuando las entidades del Gráfico de conocimiento no existen o cuando se necesita información adicional), se buscan extracciones de fragmentos de texto web relevante (sustantivos, verbos, adjetivos, pronombres).

Las palabras irrelevantes se eliminan de la consulta y de las extracciones de texto en las páginas web para la búsqueda por voz en el índice, para ayudar con la compresión de oraciones, y solo se extraen las partes importantes.

Por eliminación esto significa palabras que no añaden valor semántico o no son entidades. Éstas pueden ser “palabras funcionales”; Las «palabras funcionales» a menudo solo están presentes en cualquier caso para hacer que las páginas sean sintácticamente correctas en forma escrita y son menos necesarias para la búsqueda por voz. Las ‘palabras de contenido’ añaden significado semántico cuando se combinan con otras ‘palabras de contenido’ o entidades El significado semántico agrega valor, ayudando a desambiguar las palabras y a una mayor comprensión del tema.

Este proceso es la «Compresión de oraciones por eliminación con LSTM» que convierte palabras (tokens) en una serie de unos y ceros (binario verdadero o falso) en «nuestro otro trabajo» al que se hace referencia en la guía de evaluadores. Es una simple decisión binaria de sí o no; La diferencia parece ser que con este algoritmo de eliminación y compresión no existe la misma dependencia del etiquetado POS (parte del discurso) o del etiquetado NE (entidad nombrada) para diferenciar entre palabras relevantes e irrelevantes.

Algunos pensamientos más aleatorios para debatir

¿Se aplica la normalización de la longitud de la página a la búsqueda por voz?

La normalización de la longitud de la página es un tipo de penalización (pero no en el sentido de penalización de acciones manuales o supresiones algorítmicas como Penguin y Panda).

Una página enorme, por su naturaleza, se clasificaría para cualquier cosa si fuera lo suficientemente grande. Para amortiguar este efecto, se cree que la normalización de la longitud de la página se implementa en la recuperación de información para reducir la ventaja de clasificación de las páginas más largas y proporcionar un campo de juego más nivelado para que el atributo «longitud de la página» no proporcione una ventaja injusta.

Como resumió Amit Singhal en su artículo sobre la longitud de la página pivotada: paper on pivoted page length:

“Automatic information retrieval systems have to deal with documents of varying lengths in a text collection. Document length normalization is used to fairly retrieve documents of all lengths.”

“Los sistemas automáticos de recuperación de información tienen que lidiar con documentos de diferente extensión en una colección de textos. La normalización de la longitud de los documentos se utiliza para recuperar de forma justa documentos de todas las longitudes”.

En el texto escrito, clasificar una página escrita completa compite con otra página escrita completa, por lo que se necesita el amortiguador de “igualdad de condiciones” entre páginas largas y más cortas (cuerpos de texto), mientras que en la búsqueda por voz es simplemente un fragmento de respuesta único el que se

Podría decirse que la normalización de la longitud de la página es menos relevante para la búsqueda por voz, porque solo se extraen y comprimen los fragmentos más importantes, y se eliminan las partes sin importancia.

¿O tal vez me equivoco?

¿Cómo pueden los profesionales de SEO intentar utilizar esta información combinada?

Responda todas las preguntas, de la manera correcta y con total brevedad

No hace falta decir que queremos responder todas las preguntas, pero es clave identificar no solo las preguntas, sino también todas las formas en que nuestra audiencia las formula, junto con las propuestas.

No se trata sólo de responder las preguntas, sino de la forma en que las respondemos.

Las consultas de voz pueden ser más largas, pero las respuestas deben ser breves y concisas

Las consultas de voz son más largas que las consultas de escritorio. 

Hablamos mucho más rápido de lo que escribimos y hablamos mucho.

Asegúrese de que las oraciones sean cortas y concisas y que la respuesta esté al principio de la página, párrafo u oración.

Resuma en la parte superior de la página con un TL; DR, tabla de contenido, resumen ejecutivo o una breve lista con viñetas de puntos clave. Agregue contenido de formato más largo que amplíe la respuesta, si corresponde, para orientar la búsqueda basada en el teclado.

Cree un centro de atención al cliente en el sitio o al menos una sección de preguntas frecuentes

Esto no solo ayudará a responder todas las preguntas frecuentes que tiene su audiencia, sino que con algunos enlaces internos inteligentes a través de las secciones del sitio puede agregar pistas y sugerencias de relación a otras secciones.

Agregar un centro de soporte también tiene beneficios adicionales desde la perspectiva de CRM (gestión de relaciones con el cliente) porque probablemente reducirá los costos de servicio al cliente y también tendrá menos clientes descontentos.

El rico corpus de texto dentro de la sección agregará nuevamente muchas pistas semánticas a todo el cuerpo temático del sitio, lo que también debería ayudar nuevamente con la «relación» y respuestas directas tanto para la palabra hablada como para la apariencia en los cuadros de respuestas.

WordPress tiene un complemento particularmente sencillo llamado DW Question and Answer.

Aún mejor: cocree respuestas con los miembros de la audiencia

La creación conjunta de contenido de preguntas y respuestas con miembros clave de su base de usuarios o audiencia nuevamente tiene un doble papel que desempeñar tanto para el SEO como para el crecimiento de la promoción a lo largo del tiempo. Además, existe el argumento de que será menos probable que sus usuarios formulen respuestas spam «escritas para SEO» demasiado optimizadas a las preguntas, en lugar de escribir de forma más natural.

Como beneficio adicional, en la escala de lealtad del cliente, la cocreación con miembros de la audiencia como socios en proyectos se considera uno de los niveles más altos que se pueden alcanzar.

Conviértete en un acosador: conoce a tu audiencia, conócela bien y simula sus conversaciones

A menos que su audiencia sea técnica, o usted esté ofreciendo un producto o servicio técnico, es muy probable que hablen en términos técnicos.

Asegúrese de escribir contenido en el idioma en el que probablemente hablen y tenga cuidado con los errores gramaticales y de pronunciación.

Los errores gramaticales y ortográficos en la forma escrita basada en texto en las páginas web se tratan mediante algoritmos para corregirlos.

Se pueden utilizar Soundex, por ejemplo, y otros algoritmos fonéticos.  Soundex

Obtenga comentarios en foros, datos de servicio al cliente, chat en vivo y datos de correo electrónico cuando sea posible para tener una idea de lo que habla su audiencia de nicho.

Realiza entrevistas con tu audiencia Realizar paneles de discusión.

Agregue una encuesta de comentarios de los clientes en el sitio y recopile preguntas y respuestas allí también Herramientas como Data Miner brindan una solución gratuita para acceder a foros donde se reúne su comunidad.

En un nivel alto, utilice los datos demográficos de la audiencia de Google Analytics para obtener una visión general de quiénes son sus visitantes y luego profundice por grupos de afinidad e intereses.

Naturalmente, un análisis de la competencia en sitios más grandes con publicidad gráfica proporciona más información sobre las posibles comunidades en las que se reúne su audiencia. Quédese allí, identificando los puntos débiles y las soluciones típicos que buscan en una conversación natural, y el lenguaje que utilizan al hacerlo.

Incluso existe un software de evaluación de audiencia psicográfica como Crystal Knows, que crea mapas de personalidad de los prospectos.

Utilice nubes de palabras para visualizar temas textuales de apoyo clave importantes

Lleve a cabo investigaciones de palabras clave, consultas relacionadas, extraiga datos de servicio al cliente, correo electrónico y chat en vivo y, a partir de los datos recopilados, cree nubes de palabras simples para resaltar los puntos débiles más destacados y los microtemas de la audiencia.

Descubra qué preguntas vienen a continuación: preguntas de varios turnos y refinamiento de consultas

Anticípese a la siguiente pregunta o necesidad de información.

Piense en las tareas del usuario y los pasos dados para lograr esas tareas al realizar la búsqueda. Sabemos que Google habla de este comportamiento de búsqueda de bayas, o búsqueda de alimentos, como micromomentos, pero debemos ser más granulares y comprender cuáles son todas las tareas del usuario en torno a las consultas de búsqueda y anticiparnos a ellas. Berry Picking

Resolución anafórica y catafórica

Recuerde considerar anáfora y catáfora. Recuerde, esto resulta particularmente exasperante cuando introducimos varios caracteres en un cuerpo de texto.

Evite él, ella, ellos y de ellos cuando sea posible, refiriéndose en su lugar a la entidad o persona nombrada, para evitar problemas con la resolución anafórica y catafórica, conservando el contexto lingüístico tan a menudo como sea posible, a menos que se lea ridículamente.

Entonces es posible que deba considerar una breve sección separada en la página que se centre en la voz y evite la anáfora y la catáfora. Haga una conexión clara al responder preguntas y reunirse con propuestas a qué entidad o instancia se hace referencia.

Refinamiento de consultas

El refinamiento de las consultas (a través de «La gente también preguntó») en los resultados de búsqueda nos proporciona algunas pistas sólidas sobre lo que viene a continuación de los usuarios típicos.

Hay algunos artículos interesantes sobre recuperación de información que analizan cómo se proporcionan «categorías» de opciones de consulta para detectar lo que la gente realmente busca a continuación y proporcionar grupos de tipos de consultas para presentar a los usuarios y extraer la intención de búsqueda en su selección de bayas.

En el siguiente ejemplo podemos ver que los tipos de consultas se pueden clasificar como herramientas y contenido informativo adicional:

Descubra para qué utiliza la gente la búsqueda por voz

En 2014, Google elaboró ​​un informe que proporciona información sobre para qué utilizan las personas la búsqueda por voz.  insight into what people use voice search for

Aunque las cifras estarán desactualizadas, obtendrás algunas ideas sobre las tareas que realizan las personas con la búsqueda por voz.

Sea consistentemente local, comprenda las consultas y la intención de tipo local

La intención móvil es muy diferente a la del escritorio Tenga en cuenta esto.

Incluso en 2014, más del 50 por ciento de las búsquedas en dispositivos móviles tenían intención local, y eso fue antes del Año Mundial de la Mayoría Móvil 2017. Even as far back as 2014

Tenga en cuenta que es probable que las búsquedas por voz en dispositivos móviles se realicen mucho más a nivel local que en dispositivos domésticos sin ojos. Los dispositivos sin ojos volverán a diferir de los de escritorio y los móviles móviles.

Comprenda qué consultas son típicas de qué tipo de dispositivo, en qué escenario y las preferencias de consumo de tipo de medios de la audiencia típica.

La forma de formular las páginas deberá adaptarse y cuidar estos diferentes dispositivos y comportamientos de los usuarios (texto frente a palabras escritas).

Las personas dirán cosas diferentes en momentos diferentes, en diferentes tipos de dispositivos y en diferentes escenarios. La gente todavía quiere poder consumir información de diferentes maneras y sabemos que hay siete estilos de aprendizaje (visual, verbal, físico, auditivo, lógico, social y solitario). 

Sea consistente en los datos que puede controlar en línea Asegúrese de reclamar y optimizar (no optimizar en exceso) todas las oportunidades posibles en Google My Business y Google Maps para poseer locales.

Centrarse en la creación de entidades, la obtención de fragmentos destacados y la implementación de esquemas

Dado que Knowledge Graph and Schema es el primer lugar para buscar respuestas a la búsqueda por voz, ciertamente fortalece el argumento comercial para agregar esquemas siempre que sea posible en su sitio para marcar entidades, predicados y relaciones cuando sea posible.

Necesitamos asegurarnos de proporcionar estructura en torno a los datos y evitar el desorden no estructurado del texto estándar de la página web siempre que sea posible. Más que nunca, la búsqueda por voz significa que esto es vital.

Mi buen amigo y excelente SEO, Mike, me mencionó recientemente el esquema hablable, que tiene algunas posibilidades que vale la pena explorar para la búsqueda por voz. Mike

Tampoco hace falta decir que deberíamos implementar el esquema HowTo, dado que en 2017 los usuarios preguntaron «Cómo» más que cualquier otra cosa. HowTo schema

Recuerde que la estructura y la «relación» son «muy importantes»

Agregue significado con relación para evitar ser «confuso» en su contenido no estructurado. Agregue datos semiestructurados tan a menudo como pueda para respaldar la masa de texto en gran medida no estructurado en las páginas web y el «ruido».

El contenido relacionado no está ahí sólo para los humanos sino para agregar fuertes señales semánticas. Sea lo más granular posible con esto para una desambiguación más sólida. No hace falta decir que categorizar y subcategorizar para construir una “relación” sólida nunca ha sido más importante.

Cómo abordar el problema de los datos tabulares

Por ahora, parece prudente que la búsqueda por voz tenga una tabla y respuestas de texto sólido que acompañen a las respuestas.

Conclusión

Si bien todavía estamos recopilando información sobre cómo manejar mejor la búsqueda por voz, lo que está claro es que la estrategia que debemos emplear tendrá muchas diferencias con respecto a aquellos involucrados en la competencia en la búsqueda por escrito.

Es posible que incluso necesitemos una estrategia completamente nueva para enfocarnos en los tipos de respuestas y formulaciones necesarias para ganar. La comprensión semántica sigue siendo un problema.

Necesitamos ser conscientes de los problemas detrás de esto, que pueden crear resoluciones anafóricas y catafóricas, y tener en cuenta que actualmente no hay paráfrasis en la búsqueda por voz, por lo que debes responder todas las preguntas y responderlas de la manera correcta.

Concéntrese en garantizar una relación sólida para garantizar que se transmita una gran cantidad de contexto a todo su sitio en este entorno. Para los datos tabulares, debemos centrarnos en la búsqueda tanto escrita como verbal.

Con suerte, en los próximos meses veremos más datos de búsqueda por voz para que podamos encontrar más formas de mejorar y tal vez ser «el indicado».

Más información

Ejemplo de compresión de oraciones

La tecnología de compresión de oraciones utilizada para extraer los fragmentos más importantes dentro de las oraciones del texto para responder una consulta se basa en la funcionalidad de análisis lingüístico de los algoritmos de aprendizaje automático Parsey McParseface, diseñados para explicar el papel funcional de cada palabra en una oración. sentence compression technology

El ejemplo que proporcionó Alfonseca fue:

«Se casó con Philip Mountbatten, duque de Edimburgo, en 1947, y se convirtió en reina el 6 de febrero de 1952».

donde se mantienen las siguientes palabras subrayadas y se descartan las demás:

«Se casó con [Philip Mountbatten], [duque de Edimburgo], en 1947, y se convirtió en reina el 6 de febrero de 1952».

Esto probablemente respondería a una pregunta secuencial sobre cuándo la reina Isabel se convirtió en reina de Inglaterra cuando también estaba conectada a través de otra relación de datos/entidad más estructurada de [ciudad capital de Inglaterra].

La frase está comprimida y se omite todo lo que se incluye entre “Ella” y “se convirtió en reina el 6 de febrero de 1952”.

Compresión de oraciones por eliminación con LSTM

La compresión de oraciones por eliminación con LSTM parece ser excepcional porque no depende totalmente de las etiquetas de parte del discurso (POS) o de las etiquetas reconocedoras de entidades nombradas (NE) para diferenciar entre palabras que son relevantes y aquellas que son irrelevantes para poder extraer palabras relevantes. Part of Speech (POS)

Para aclarar, el etiquetado POS se utiliza principalmente en cuerpos de texto para identificar palabras de contenido, como sustantivos, verbos, adjetivos, pronombres, etc., que proporcionan una mayor comprensión semántica como parte de la desambiguación de palabras. Considerando que Stanford describe las etiquetas de reconocedor NE como: Stanford

“Named Entity Recognition (NER) labels sequences of words in a text which are the names of things, such as person and company names, or gene and protein names.”

«El reconocimiento de entidades nombradas (NER) etiqueta secuencias de palabras en un texto que son nombres de cosas, como nombres de personas y empresas, o nombres de genes y proteínas».

Las palabras funcionales ayudan a proporcionar una estructuración clara de las oraciones, pero no brindan más información ni valor agregado para ayudar con la desambiguación de palabras. Están ahí simplemente para hacer que la oración se lea mejor.

Ejemplos de estos son pronombres, determinantes, preposiciones y conjunciones. Estas hacen que la lectura sea más agradable y son esenciales para que el texto suene natural, pero no son palabras que “proporcionen conocimiento”. Algunos ejemplos son “en”, “y”, “para”, “el”, “por lo tanto”, “por el cual”, etc.

Por lo tanto, comprimir naturalmente la oración simplemente cortando las palabras solo a las útiles, con una simple decisión binaria de sí o no.

La tecnología utiliza unidades (o bloques) de memoria a corto plazo (LSTM), que son una unidad de construcción para capas de una red neuronal recurrente (RNN). recurrent neural network

A continuación se muestran algunos otros ejemplos de compresión general de oraciones. other examples of general sentence compression

Resolución anafórica y catafórica

¿Qué es la anáfora?

Una búsqueda de “anáfora” proporciona una explicación razonable:

“In grammar, anaphora is the use of a word referring back to a word used earlier in a text or conversation, to avoid repetition, for example, the pronouns he, she, it and they and the verb do in I like it and do they.”

“En gramática, anáfora es el uso de una palabra que se refiere a una palabra usada anteriormente en un texto o conversación, para evitar la repetición, por ejemplo, los pronombres él, ella, eso y ellos y el verbo hacer en me gusta y hacer.

Este problema puede ser particularmente frecuente en conversaciones secuenciales de varios turnos.

No se nos proporciona información sobre si los evaluadores humanos hacen preguntas secuenciales de varios turnos o proposiciones de consulta, pero como sabemos por la conferencia de Alfonseca, esta sigue siendo un área problemática, por lo que podemos suponer que requerirá comentarios de los evaluadores humanos para buscar

Puede referirse al encadenamiento múltiple de anáfora y catáfora, por ejemplo:

Un ejemplo podría ser:

  1. ¿Quién es el presidente de los estados unidos?
  2. ¿Dónde nació el?
  3. ¿Dónde vivía antes de ser presidente?
  4. ¿Con quién está casado?
  5. ¿Cómo se llaman sus hijos?
  6. Cuando se casó con Michelle, ¿dónde se casaron?

Ejemplos de anáfora

  • La estudiante estudió mucho para su examen.
  • La estudiante se vio en el espejo.
  • John estudió mucho para su examen.

Ejemplos de catáfora

  • Debido a que estudió mucho, Nancy obtuvo excelentes resultados en su examen.

Aquí hay más ejemplos de anáforas y catáforas. anaphora & cataphora examples.

Créditos de imagen

Capturas de pantalla tomadas por el autor, enero de 2018.

Leer el articulo original en Search Engine Journal.

¡Danos un Voto!

¿Tienes una pregunta?

Luis Narciso
Sobre SEO
(Posicionamiento Web)

Frank Fajardo
Sobre Diseño Web, Anuncios, Diseño y Redes Sociales