Nunca ha habido un momento más importante en su carrera para dedicar tiempo a aprender y comprender. No porque la búsqueda por IA difiera drásticamente de la búsqueda tradicional. Sino porque todos los demás piensan que sí.
Todos los altos directivos del país están desesperados por hacer esto bien. Quienes toman las decisiones deben tener confianza en que usted y yo somos las personas adecuadas para llevarnos a la nueva frontera.
Necesitamos aprender los fundamentos de la recuperación de información. Incluso si su empresa no debería hacer nada diferente.
Aquí, eso comienza con la comprensión de los conceptos básicos de los datos de entrenamiento de modelos. ¿Qué es, cómo funciona y, sobre todo, ¿Cómo puedo entrar?.
TL;DR
- La IA es el producto de sus datos de entrenamiento. La calidad (y cantidad) con la que se entrena el modelo es clave para su éxito.
- Los datos comunes de IA obtenidos en la web se están volviendo cada vez más restringidos. Esto distorsionará las leyes de representatividad, actualidad y escala de los datos.
- Mientras más consistentes y precisas sean las menciones de marca que aparezcan en los datos de entrenamiento, menos ambiguo serás.
- El SEO de calidad, con mejores productos y marketing tradicional, mejorará su apariencia en la capacitación y los datos y, eventualmente, con la recuperación/RAG en tiempo real.
¿Qué son los datos de entrenamiento?
Los datos de capacitación son el conjunto de datos fundamental que se utiliza en la capacitación de LLM para predecir la siguiente palabra, oración y respuesta más apropiada. Los datos pueden estar etiquetados, donde a los modelos se les enseña la respuesta correcta, o sin etiquetar, donde tienen que descubrirla por sí mismos.
Sin datos de entrenamiento de alta calidad, los modelos son completamente inútiles.
Desde tweets semidifamantes hasta videos de gatos y grandes obras de arte y literatura que resisten el paso del tiempo, nada está prohibido. Nada. Tampoco son sólo palabras. Los modelos de voz a texto deben entrenarse para responder a diferentes patrones y acentos del habla. Emociones incluso.
¿Cómo funciona?
Los modelos no memorizan, se comprimen. Los LLM procesan miles de millones de puntos de datos y ajustan los pesos internos mediante un mecanismo conocido como retropropagación.
Si la siguiente palabra predicha en una serie de ejemplos de entrenamiento es correcta, se continúa. Si no, obtiene el equivalente mecánico del condicionamiento pavloviano.
Un golpe en la cabeza con un palo o un “buen chico”.
Luego, el modelo puede vectorizarse. Crear un mapa de asociaciones por término, frase y oración.
- Conversión de texto en vectores numéricos, también conocido como Bolsa de palabras.
- Capturar el significado semántico de palabras y oraciones, preservando un contexto y significado más amplios (incrustaciones de palabras y oraciones).
Las reglas y los matices están codificados como un conjunto de relaciones semánticas; esto se conoce como memoria paramétrica. “Conocimiento” integrado directamente en la arquitectura. Cuanto más refinado sea el conocimiento de un modelo sobre un tema, menos tendrá que utilizar una forma de conexión a tierra para verificar su tontería.
Vale la pena señalar que los modelos con una memoria paramétrica alta son más rápidos a la hora de recuperar información precisa (si está disponible), pero tienen una base de conocimientos estática y literalmente olvidan cosas.
RAG y la búsqueda web en vivo son un ejemplo de un modelo que utiliza memoria no paramétrica. Escala infinita, pero más lenta. Mucho mejor para las noticias y cuando los resultados requieren fundamento.
Elaboración de algoritmos de mejor calidad
Cuando se trata de datos de entrenamiento, la elaboración de algoritmos de mejor calidad se basa en tres elementos:
- Calidad.
- Cantidad.
- Eliminación de sesgos.
Calidad de los datos importa por razones obvias. Si entrena un modelo con datos únicamente sintéticos y mal etiquetados, no se puede esperar que el rendimiento del modelo refleje exactamente los problemas o complejidades reales.
Cantidad de datos También es un problema. Principalmente porque estas empresas se han comido todo lo que tenían a la vista y se han quedado atrás en la factura.
Aprovechar los datos sintéticos para resolver problemas de escala no es necesariamente un problema. Los días en que estos tipos accedían a contenido gratuito y de alta calidad en Internet han quedado atrás. Por dos razones principales:
- A menos que quieras racismo diabólico, comentarios crueles, teorías de conspiración y tonterías plagiadas, no estoy seguro de que Internet ya sea lo tuyo.
- Al menos si respetan las directivas robots.txt de la empresa. Ocho de cada 10 de los sitios web de noticias más importantes del mundo ahora bloquean los robots de entrenamiento de IA. No sé qué tan efectivo es su bloqueo a nivel de CDN, pero esto hace que sea más difícil obtener datos de entrenamiento de calidad.
El sesgo y la diversidad (o la falta de ellos) también son un gran problema. La gente tiene sus propios prejuicios inherentes. Incluso los que construyen estos modelos.
Impactante, lo sé…
Si los modelos reciben datos injustamente ponderados hacia ciertas características o marcas, esto puede reforzar los problemas sociales. Puede aumentar la discriminación.
Recuerde, los LLM no son ni inteligentes ni bases de datos de hechos. Analizan patrones a partir de datos ingeridos. Miles de millones o billones de pesos numéricos que determinan la siguiente palabra (token) que sigue a otra en cualquier contexto determinado.
¿Cómo se recopilan los datos de entrenamiento?
Como todo buen SEO, depende.
- Si creó un modelo de IA explícitamente para identificar imágenes de perros, necesitará imágenes de perros en todas las posiciones imaginables. Todo tipo de perro. Cada emoción que muestra el perro. Necesita crear o adquirir un conjunto de datos de millones, tal vez miles de millones, de imágenes caninas.
- Luego hay que limpiarlo. Piense en ello como estructurar datos en un formato coherente. En dicho escenario de perro, tal vez un amigo felino agregó de manera nefasta imágenes de gatos disfrazados de perros para molestarte. Esos deben ser identificados.
- Luego etiquetado (para aprendizaje supervisado). El etiquetado de datos (con algunas anotaciones humanas) garantiza que tengamos un ser sensible en algún lugar del circuito. Con suerte, un experto agregará etiquetas relevantes a una pequeña porción de datos, para que el modelo pueda aprender. Por ejemplo, un perro salchicha sentado sobre una caja con aspecto melancólico.
- Preprocesamiento. Responder a cuestiones como gatos disfrazados de perros. Garantizar que se minimicen los posibles sesgos en el conjunto de datos, como que razas de perros específicas se mencionen con mucha más frecuencia que otras.
- Particionado. Una parte de los datos se retiene para que el modelo no pueda memorizar las salidas. Esta es la etapa final de validación. Algo así como un placebo.
Obviamente, esto es costoso y requiere mucho tiempo. No es factible aprovechar cientos de miles de horas de experiencia de personas reales en campos importantes.
Piensa en esto. Acabas de romperte el brazo y estás esperando en urgencias durante seis horas. Finalmente te atendieron, sólo para que te dijeran que tenías que esperar porque todos los médicos habían estado procesando imágenes para el nuevo modelo de OpenAI.
“Sí señor, sé que está sufriendo un dolor insoportable, pero tengo muchísimos perros de aspecto triste que etiquetar”.
El etiquetado de datos es un proceso tedioso y que requiere mucho tiempo. Para combatir esto, muchas empresas contratan grandes equipos de anotadores de datos humanos (también conocidos como humanos en el circuito, ya sabes, verdaderos expertos), asistidos por modelos automatizados de etiquetado débil. En el aprendizaje supervisado, clasifican el etiquetado inicial.
En perspectiva, una hora de datos de video puede tomar hasta 800 horas para que los humanos realicen anotaciones.
Micromodelos
Así, las empresas construyen micromodelos. Modelos que no requieren tanta capacitación o datos para ejecutarse. Los humanos en el bucle (estoy seguro de que tienen nombres) pueden comenzar a entrenar micromodelos después de anotar algunos ejemplos.
Los modelos aprenden. Se entrenan a sí mismos.
Entonces, con el tiempo, la participación humana disminuye y solo necesitamos validar los resultados. Y para asegurarse de que las modelos no intenten desnudar a niños, celebridades y compañeros de trabajo en Internet.
Pero, ¿a quién le importa eso frente al “progreso”?

Tipos de datos de entrenamiento
Los datos de entrenamiento generalmente se clasifican según la cantidad de orientación que se proporciona o se requiere (supervisión) y el papel que desempeña en el ciclo de vida del modelo (función).
Idealmente, un modelo se entrena en gran medida con datos reales.
Una vez que un modelo está listo, se puede entrenar y ajustar con datos sintéticos. Pero es poco probable que los datos sintéticos por sí solos creen modelos de alta calidad.
- Supervisado (o etiquetado): Donde cada entrada está anotada con la respuesta “correcta”.
- Sin supervisión (o sin etiquetar): Resolvedlo vosotros mismos, robots, me voy a tomar una cerveza.
- Semi-supervisado: donde una pequeña cantidad de datos está etiquetada adecuadamente y el modelo “comprende” las reglas. Es más, me tomaré una cerveza en la oficina.
- RLHF (Aprendizaje por refuerzo a partir de la retroalimentación humana): A los humanos se les muestran dos opciones y se les pide que elijan la “correcta” (datos de preferencia). O una persona demuestra la tarea en cuestión para el modo a imitar (datos de demostración).
- Datos previos al entrenamiento y ajuste: Los conjuntos de datos masivos permiten una amplia adquisición de información y se utilizan ajustes para convertir el modelo en un experto en categorías.
- Multimodal: Imágenes, vídeos, textos, etc.
Luego, algo de lo que se conoce como datos de casos extremos. Datos diseñados para “engañar” al modelo y hacerlo más robusto.
A la luz del mercado, llamémoslo “floreciente”, de datos de entrenamiento de IA, existen cuestiones obvias de “uso justo” en torno a él.
“Encontramos que el 23% de los conjuntos de datos de capacitación supervisados se publican bajo licencias de investigación o no comerciales”.
Entonces paga a la gente.
El espectro de la supervisión
En el aprendizaje supervisado, el algoritmo de IA recibe datos etiquetados. Estas etiquetas definen los resultados y son fundamentales para que el algoritmo pueda mejorar por sí solo con el tiempo.
Digamos que estás entrenando a un modelo para identificar colores. Hay decenas de tonos de cada color. Incluso cientos. Entonces, si bien este es un ejemplo sencillo, requiere un etiquetado preciso. El problema del etiquetado preciso es que requiere mucho tiempo y es potencialmente costoso.
En el aprendizaje no supervisado, el modelo de IA recibe datos sin etiquetar. Tiras millones de filas, imágenes o vídeos a una máquina, te sientas a tomar un café y luego la pateas cuando no ha sabido qué hacer.
Permite un “reconocimiento de patrones” más exploratorio. No aprendiendo.
Si bien este enfoque tiene desventajas obvias, es increíblemente útil para identificar patrones que un ser humano podría pasar por alto. Básicamente, el modelo puede definir sus propias etiquetas y rutas.
Los modelos pueden entrenarse a sí mismos, y lo hacen, y encontrarán cosas que un ser humano nunca podría. También se perderán cosas. Es como un coche sin conductor. Los coches sin conductor pueden tener menos accidentes que cuando hay un ser humano en el circuito. Pero cuando lo hacen, lo encontramos mucho más desagradable.

Es la tecnología la que nos asusta. Y con razón.
Combatir el sesgo
El sesgo en los datos de entrenamiento es muy real y potencialmente muy dañino. Hay tres fases:
- Sesgo de origen.
- Sesgo de desarrollo.
- Sesgo de implementación.
Sesgo de origen hace referencia a la validez y equidad del conjunto de datos. ¿Los datos son completos? ¿Existe algún sesgo sistémico, implícito o de confirmación obvio?
Sesgo de desarrollo Incluye las características o principios de los datos con los que se entrena el modelo. ¿Se produce un sesgo algorítmico? debido a los datos de entrenamiento?
entonces tenemos sesgo de implementación. Donde la evaluación y el procesamiento de los datos conducen a resultados defectuosos y a un sesgo de bucle automatizado/de retroalimentación.
Realmente puedes ver por qué necesitamos un ser humano al tanto. Y por qué el entrenamiento de modelos de IA con datos sintéticos o elegidos de forma inapropiada sería un desastre.
En el sector sanitario, las actividades de recopilación de datos influidas por prejuicios humanos pueden conducir al entrenamiento de algoritmos que repliquen desigualdades históricas. Vaya.
Lo que lleva a un ciclo de refuerzo bastante sombrío.
Las fuentes de datos de formación más utilizadas
Las fuentes de datos de capacitación son muy variadas tanto en calidad como en estructura. Tienes la red abierta, que obviamente es un poco mental. X, si quieres entrenar algo para que sea racista. Reddit, si estás buscando el Incel Bot 5000.
O repositorios académicos y literarios altamente estructurados si quieres construir algo, ya sabes, bueno… Obviamente entonces tienes que pagar algo.
rastreo común
Common Crawl es un repositorio web público, un almacén gratuito y de código abierto de datos de rastreo web históricos y actuales disponibles para prácticamente cualquier persona en Internet.
El Common Crawl Web Graph completo contiene actualmente alrededor de 607 millones de registros de dominio en todos los conjuntos de datos, y cada versión mensual cubre entre 94 y 163 millones de dominios.
En el informe de 2024 de la Fundación Mozilla, Datos de capacitación por el precio de un sándwich, el 64% de los 47 LLM analizados utilizaron al menos una versión filtrada de datos de rastreo común.
Si no está en los datos de capacitación, es muy poco probable que lo citen y hagan referencia a usted. El servidor Common Crawl Index le permite buscar cualquier patrón de URL en sus archivos de rastreo y el Web Graph de Metehan le ayuda a ver qué tan “centrado está”.
Wikipedia (y Wikidata)
El conjunto de datos predeterminado de Wikipedia en inglés contiene 19,88 GB de artículos completos que ayudan con las tareas de modelado del lenguaje. Y Wikidata es un gráfico de conocimiento enorme e increíblemente completo. Datos inmensamente estructurados.
Si bien representa sólo un pequeño porcentaje del total de tokens, Wikipedia es quizás la fuente más influyente para la resolución de entidades y el consenso fáctico. Es uno de los repositorios de contenido más precisos, actualizados y mejor estructurados que existen.
Algunos de los más importantes acaban de firmar acuerdos con Wikipedia.
Editores
OpenAI, Gemini, etc., tienen acuerdos de licencia multimillonarios con varios editores.
La lista continúa, pero sólo por un tiempo… y no recientemente. He oído que las cosas se han cerrado. Lo cual, dado el estado de sus finanzas, puede no ser sorprendente.
Medios y bibliotecas
Esto es principalmente para capacitación de contenido multimodal. Shutterstock (imágenes/video), Getty Images tienen uno con Perplexity, y Disney (un socio de 2026 para la plataforma de video Sora) proporciona la base visual para modelos multimodales.
Como parte de este acuerdo de licencia de tres años con Disney, Sora podrá generar videos sociales cortos, dirigidos por el usuario, basados en personajes de Disney.
Como parte del acuerdo, Disney realizará una inversión de capital de mil millones de dólares en OpenAI y recibirá garantías para comprar capital adicional.
Libros
BookCorpus convirtió datos extraídos de 11.000 libros inéditos en un conjunto de datos de 985 millones de palabras.
No podemos escribir libros lo suficientemente rápido como para que los modelos aprendan continuamente. Es parte del colapso del modelo que pronto ocurrirá.
Repositorios de código
La codificación se ha convertido en una de las características más influyentes y valiosas de los LLM. Los LLM específicos como Cursor o Claude Code son increíbles. Los datos de GitHub y Stack Overflow han creado estos modelos.
Han construido la revolución de la ingeniería de vibraciones.
Datos web públicos
Los datos web diversos (pero relevantes) dan como resultado una convergencia más rápida durante el entrenamiento, lo que a su vez reduce los requisitos computacionales. Es dinámico. Siempre cambiante. Pero, lamentablemente, un poco loco y desordenado.
Pero, si necesita grandes cantidades de datos, tal vez en tiempo real, entonces los datos web públicos son el camino a seguir. Lo mismo ocurre con opiniones reales y reseñas de productos y servicios. Los datos web públicos, las plataformas de reseñas, el UGC y los sitios de redes sociales son excelentes.
Por qué los modelos no mejoran (mucho)
Si bien no hay escasez de datos en el mundo, la mayoría de ellos no están etiquetados y, por lo tanto, no pueden usarse en modelos supervisados de aprendizaje automático. Cada etiqueta incorrecta tiene un impacto negativo en el rendimiento de un modelo.
Según la mayoría, estamos a sólo unos años de quedarnos sin datos de calidad. Inevitablemente, esto conducirá a un momento en el que esas herramientas genAI comiencen a consumir su propia basura.
Este es un Problema conocido que provocará el colapso del modelo.
- Están siendo bloqueados por empresas que no quieren que sus datos se utilicen gratuitamente para entrenar los modelos.
- Los protocolos Robots.txt (una directiva, no algo directamente aplicable), el bloqueo a nivel de CDN y las páginas de términos de servicio se han actualizado para decirles a estos tipos que se pierdan.
- Consumen datos más rápido de lo que podemos producirlos.
Francamente, a medida que más editores y sitios web se ven obligados a utilizar el muro de pago (una decisión comercial inteligente), la calidad de estos modelos solo empeora.
Entonces, ¿cómo se obtienen los datos de entrenamiento?
Hay dos enfoques obvios que se me ocurren.
- Identificar los conjuntos de datos semilla de modelos que importan y encontrar formas de acceder a ellos.
- Renunciar a los detalles y simplemente hacer un excelente SEO y un marketing más amplio. Genere un impacto tangible en su industria.
Puedo ver pros y contras de ambos. Encontrar formas de acceder a modelos específicos probablemente sea muy innecesario para la mayoría de las marcas. Para mí, esto huele más a SEO de sombrero gris. A la mayoría de las marcas les irá mejor si simplemente hacen un buen marketing y son compartidas, citadas y, ya sabes, habladas de ellas.
Estos modelos no se entrenan con datos directamente actualizados. Esto es importante porque no se puede acceder retroactivamente a los datos de entrenamiento de un modelo específico. Tienes que planificar con anticipación.
Si eres un particular, deberías ser:
- Crear y compartir contenido.
- Ir a podcasts.
- Asistencia a eventos del sector.
- Compartir el contenido de otras personas.
- Realización de seminarios web.
- Ponerse frente a editores, publicaciones y personas relevantes.
Existen algunas fuentes bastante obvias de datos altamente estructurados por las que los modelos han pagado en los últimos tiempos. Lo sé, en realidad han pagado por ello. No sé qué tuvieron que hacer los chicos de Reddit y Wikipedia para obtener dinero de estos tipos, y tal vez no quiera.
¿Cómo puedo saber qué modelos de conjuntos de datos utilizan?
Todos se han vuelto mucho más cerrados con lo que hacen y no usan como datos de entrenamiento. Sospecho que esto tiene una motivación tanto legal como financiera. Por lo tanto, necesitarás investigar un poco.
Y hay algunos conjuntos de datos masivos de “código abierto” que sospecho que todos usan:
- Rastreo común.
- Wikipedia.
- Wikidatos.
- Repositorios de codificación.
Afortunadamente, la mayoría de los acuerdos son públicos y es seguro asumir que los modelos utilizan datos de estas plataformas.
Google tiene una asociación con Reddit y tiene acceso a una enorme cantidad de transcripciones de YouTube. Es casi seguro que tienen a su alcance datos más valiosos y mejor estructurados que cualquier otra empresa.
Grok se entrenó casi exclusivamente con datos en tiempo real de X. De ahí que actúe como un tirador escolar prepúber y desnuda a todos.
Vale la pena señalar que las empresas de inteligencia artificial utilizan proveedores externos. Fábricas donde los datos se extraen, limpian y estructuran para crear conjuntos de datos supervisados. Scale AI es el motor de datos que utilizan los grandes actores. Bright Data se especializa en la recopilación de datos web.
Una lista de verificación
Bien, entonces estamos intentando incluirlo en la memoria paramétrica. Aparecer en los datos de entrenamiento de LLM para que el modelo lo reconozca y sea más probable que lo utilicen para RAG/recuperación. Eso significa que necesitamos:
- Administre el ecosistema multibot de capacitación, indexación y navegación.
- Optimización de entidades. Contenido bien estructurado y bien conectado, NAP consistentes, propiedades de esquema iguales y presencia de Knowledge Graph. En Google y Wikidata.
- Asegúrese de que su contenido se represente en el lado del servidor. Google se ha vuelto muy experto en representar contenido en el lado del cliente. Los bots como GPT-bot solo ven la respuesta HTML. JavaScript todavía es complicado.
- Contenido bien estructurado y legible por máquina en formatos relevantes. Tablas, listas, HTML semántico adecuadamente estructurado.
- Conseguir. Tú mismo. Afuera. Allá. Comparte tus cosas. Haz ruido.
- Sea muy, muy claro en su sitio web acerca de quién es usted. Responda las preguntas relevantes. Sea dueño de sus entidades.
Tienes que equilibrar las asociaciones directas (¿qué tu dices) con asociaciones semánticas (qué otros dicen acerca de ti). Haga de su marca la siguiente palabra obvia.
SEO moderno, con mejor marketing.
Más recursos:
Lea Liderazgo en SEO, suscríbase ahora.
Imagen de portada: Collagery/Shutterstock
(etiquetasToTranslate)SEO

