Un estudio de Semrush https://www.semrush.com/blog/ realizado en junio de 2025, basado en 150,000 citas, revela las principales fuentes de datos de la IA que utilizan modelos de lenguaje como ChatGPT y Perplexity.
Estos hallazgos iluminan cómo las IAs construyen sus respuestas y el impacto de los sitios web en la era digital.
Los Dominios Más Citados
Reddit encabeza la lista con un 40.1% de citas, destacándose por su contenido generado por usuarios https://www.reddit.com/. Wikipedia sigue con un 26.3%, valorada por su estructura factual https://www.wikipedia.org/. YouTube (23.5%) y Google (23.3%) aportan multimedia y búsquedas https://www.youtube.com/, https://www.google.com/. Yelp (21.0%) y Facebook (20.0%) refuerzan reseñas y redes sociales https://www.yelp.com/, https://www.facebook.com/. Amazon (18.7%) lidera en comercio https://www.amazon.com/, y TripAdvisor (12.5%) en viajes https://www.tripadvisor.com/. Mapbox (11.3%) y OpenStreetMap (11.3%) brillan en geografía https://www.mapbox.com/, https://www.openstreetmap.org/, junto a Instagram (10.9%) y MapQuest (9.8%) en visuales y navegación https://www.instagram.com/, https://www.mapquest.com/. Walmart (9.3%), eBay (7.7%), LinkedIn (5.9%), Quora (4.6%), Home Depot (4.6%), Yahoo! (4.4%), Target (4.3%) y Pinterest (4.2%) completan el top 20.
Implicaciones del Estudio
El liderazgo de Reddit sugiere una fuerte influencia de las discusiones comunitarias, aunque con riesgos de imprecisión. Wikipedia confirma su rol como base factual, mientras YouTube y Google destacan en contenido audiovisual. La presencia de plataformas comerciales indica un sesgo hacia datos de mercado. Expertos en IA https://ai.googleblog.com/ advierten que esto podría amplificar información errónea.
Contexto y Debates
Con 700 millones de usuarios semanales de ChatGPT, la calidad de las fuentes es crucial. El estudio sugiere que las IAs reflejan y moldean la web.
Reflexión Final
¿Es hora de regular cómo las IAs eligen sus fuentes? El debate sigue abierto.
Definiciones:
LLM (Large Language Model): Modelo de lenguaje de gran escala basado en IA que genera texto a partir de datos masivos.
Citas: Referencias a sitios web que las IAs usan como base para sus respuestas.
Semrush: Plataforma de análisis SEO y marketing digital que realizó el estudio.
Contenido Generado por Usuarios (UGC): Información creada por personas en plataformas como Reddit.
Sesgo: Tendencia de las IAs a favorecer ciertos datos según sus fuentes.






