Google publicó un artículo de investigación que describe cómo extrae información “servicios ofrecidos” de sitios comerciales locales para agregarlo a los perfiles comerciales en Google Maps y Search. El algoritmo describe factores de relevancia específicos y confirma que el sistema se ha utilizado con éxito durante un año.
Lo que hace que este trabajo de investigación sea especialmente notable es que uno de los autores es Marc Najork, un distinguido científico de investigación de Google que está asociado con muchos hitos en la recuperación de la información, el procesamiento del lenguaje natural e inteligencia artificial.
El propósito de este sistema es facilitar que los usuarios encuentren negocios locales que brindan los servicios que están buscando. El documento se publicó en 2024 (según el archivo de Internet) y está fechado en 2023.
El trabajo de investigación explica:
“… Para reducir el esfuerzo del usuario, desarrollamos e implementamos una tubería para extraer automáticamente los tipos de trabajo de los sitios web comerciales. Por ejemplo, si una página web propiedad de un negocio de plomería establece:” Proporcionamos el servicio de instalación de inodoros y reparación de grifos “, nuestra tubería genera la instalación del baño y la reparación de grifos como tipos de trabajo para este negocio”.
El sistema usa Bert
Google usó el modelo de idioma Bert para clasificar si las frases extraídas de los sitios web de negocios describen los tipos de trabajo reales. Bert se ajustó a los ejemplos etiquetados y se le dio un contexto adicional, como la estructura del sitio web, los patrones de URL y la categoría de negocios para mejorar la precisión sin sacrificar la escalabilidad.
Desarrollar un sistema de búsqueda local
El primer paso para crear un sistema para rastrear y extraer información de tipo de trabajo fue crear datos de capacitación desde cero. Seleccionaron miles de millones de páginas de inicio que se enumeran en los perfiles comerciales de Google y extrajeron información de tipo de trabajo de tablas y listas formateadas en páginas o páginas de inicio que estaban a un clic de las páginas de inicio. Estos datos de tipo de trabajo se convirtieron en el conjunto de semillas de tipos de trabajo.
Los datos de tipo de trabajo extraídos se utilizaron como consultas de búsqueda, aumentadas con la expansión de la consulta (sinónimos) para ampliar la lista de tipos de trabajo para incluir todas las variaciones posibles de las frases de palabras clave de tipo de trabajo.
Segundo paso: solucionar un problema de relevancia
Los investigadores de Google aplicaron su sistema en los miles de millones de páginas y no funcionó como se pretendía porque muchas páginas tenían frases de tipo de trabajo que no describían los servicios ofrecidos.
El trabajo de investigación explica:
“Descubrimos que muchas páginas mencionan los nombres de los tipos de trabajo para otros fines, como dar consejos de vida. Por ejemplo, una página web que enseña a los lectores a tratar con chinches de cama puede contener una oración como una solución es llamar a los servicios de limpieza del hogar si encuentra chinches en su hogar. Por lo general, proporcionan servicios como el control de chinches. Aunque esta página menciona múltiples nombres de tipo trabajo, la página no proporciona una empresa de limpieza en el hogar”.
Limitar el rastreo e indexación a la identificación de frases de palabras clave de tipo de trabajo dio como resultado falsos positivos. La solución era incorporar oraciones que rodearan las frases de palabras clave para que pudieran comprender mejor el contexto de las frases de palabras clave de tipo de trabajo.
Se explica el éxito de usar el texto circundante:
“Como se muestra en la Tabla 2, JobModelsround funciona significativamente mejor que JobModel, lo que sugiere que las palabras circundantes podrían explicar la intención de las menciones de tipo de trabajo de semilla. Esto mejora con éxito la comprensión semántica sin procesar el texto completo de cada página, manteniendo nuestros modelos eficientes”.
SEO Insight
El algoritmo de búsqueda local descrito excluye a propósito toda la información en la página y se concentra en frases de palabras clave de tipo de trabajo y palabras y frases circundantes alrededor de esas palabras clave. Esto muestra la importancia de cómo las palabras en torno a frases importantes de palabras clave pueden proporcionar contexto para las frases de palabras clave y facilitar que los rastreadores de Google comprendan de qué se trata la página sin tener que procesar toda la página web.
SEO Insight
Otra idea es que Google no está indexando toda la página web con el propósito limitado de identificar frases de palabras clave de tipo de trabajo. El algoritmo está buscando la frase de palabras clave y las frases de palabras clave circundantes.
SEO Insight
El concepto de analizar solo una parte de una página es similar a la anotación de la pieza central de Google, donde se identifica una sección de contenido como el tema principal de la página. No digo que estos estén relacionados. Solo estoy señalando una característica de muchos donde un algoritmo de Google se concentra en una sección de una página.
El sistema de extracción se puede generalizar a otros contextos
Un hallazgo interesante detallado por el documento de investigación es que el sistema que desarrollaron se puede utilizar en áreas (dominios) que no sean empresas locales, como “hallazgo de experiencia, extracción de información legal y médica”.
Ellos escriben:
“Las lecciones que compartimos para desarrollar la cartera de extracción a gran escala desde cero pueden generalizarse a otras tareas de extracción de información o aprendizaje automático. Tienen aplicaciones directas a tareas de extracción específicas de dominio, ejemplificadas por la búsqueda de experiencia, la extracción de información legal y médica.
Tres lecciones más importantes son:
(1) utilizar las propiedades de datos, como el contenido estructurado, podría aliviar el problema de inicio en frío de la anotación de datos;
(2) formular la tarea como un problema de recuperación podría ayudar a los investigadores y profesionales a lidiar con un gran conjunto de datos;
(3) La información del contexto podría mejorar la calidad del modelo sin sacrificar su escalabilidad “.
El extracto de tipo de trabajo es un éxito
El trabajo de investigación dice que su sistema es un éxito, tiene un alto nivel de precisión (precisión) y que es escalable. El trabajo de investigación dice que ya ha estado en uso durante un año. La investigación está fechada en 2023 pero de acuerdo con el Archivo de Internet (Wayback Machine), se publicó en algún momento de julio de 2024.
Los investigadores escriben:
“Nuestra tubería se ejecuta periódicamente para mantener el contenido extraído actualizado. Actualmente se implementa en producción, y los tipos de trabajo de salida están aparecidos para millones de usuarios de búsqueda y mapas de Google”.
Comida para llevar
- Algoritmo de Google que extrae los tipos de trabajo de las páginas web
Google desarrolló un algoritmo que extrae “tipos de trabajo” (es decir, servicios ofrecidos) de sitios web comerciales para mostrar en Google Maps y Búsqueda. - Extractos de tuberías del contenido no estructurado
En lugar de confiar en elementos HTML estructurados, el algoritmo lee contenido de texto libre, lo que lo hace efectivo incluso cuando los servicios están enterrados en los párrafos. - La relevancia contextual es importante
El sistema evalúa las palabras circundantes para confirmar que los términos relacionados con el servicio son realmente relevantes para el negocio, mejorando la precisión. - Potencial de generalización del modelo
El enfoque se puede aplicar a otros campos como la extracción de información legal o médica, que muestra cómo se puede aplicar a otros tipos de conocimiento. - Alta precisión y escalabilidad
El sistema se ha implementado durante más de un año y ofrece resultados escalables y de alta precisión en miles de millones de páginas web.
Google publicó un trabajo de investigación sobre un algoritmo que extrae automáticamente las descripciones de servicios de los sitios web de negocios locales mediante el análisis de frases de palabras clave y su contexto circundante, lo que permite listados más precisos y actualizados en Google Maps and Search. Esta técnica evita la dependencia de la estructura HTML y puede adaptarse para su uso en otras industrias, donde se necesita extraer información del texto no estructurado.
Lea el resumen del documento de investigación y descargue la versión PDF aquí:
Extracción de tipo de trabajo para empresas de servicios
Imagen destacada de Shutterstock/Vidi Studio
(Tagstotranslate) SEO (T) Google Patentes y Documentos de Investigación (T) Búsqueda local