Estas son las páginas web de las que ChatGPT extrae su información

Los programas de inteligencia artificial como ChatGPT requieren grandes cantidades de información para ejecutar sus procesos y ofrecer la mejor calidad y cantidad de datos posibles, en el caso de OpenAI, se conoce que la data, en su mayoría, proviene de millones de páginas web.

Una investigación realizada por The Washington Post indica cuáles serían las páginas web que utiliza esta inteligencia artificial para “alimentarse” y generar las respuestas de las consultas realizadas por los usuarios.

Si bien no es posible identificar las páginas web exactas que se utilizan como fuente en el caso de ChatGPT pues solo OpenAI tiene la lista completa, sí es posible identificar de qué conjunto de datos extrae la información, no solo esta, sino la gran mayoría de inteligencias artificiales.

La información en internet está organizada en grandes conjuntos que actúan como pozos que son visitados para extraer lo que se necesite de ellos.

El llamado C4 es el conjunto visitado por ChatGPT y otros modelos similares para generar respuestas a las consultas de internet y está compuesto por alrededor de 15.1 millones de sitios web de diferentes temas y orígenes.

La investigación realizada indica que en este conjunto de datos se encuentran sitios web relacionados con los negocios, tecnología, noticias, arte, ciencia, entre otras especialidades.

Muchos contenidos extraídos de estos sitios están protegidos por derechos de autor, por lo que cada chatbot que utilice el conjunto C4 como fuente, podría estar infringiendo esta normativa en el proceso, ya sea para una consulta eventual o en caso de que un estudiante pida que la inteligencia artificial haga su tarea.

Según el Instituto Allen para la Inteligencia Artificial, que también participó en la investigación, el símbolo de copyright “©” aparece más de 200 millones de veces en el conjunto de datos C4.

Algunas de las páginas web de las que se extraen datos son Fool.com, Kickstarter.com, Patreon.com en lo que respecta a contenido relacionado con negocios, aunque muchos de ellos estén protegidos por derechos de autor.

Sin embargo, estos no son los sitios web más utilizados en el cómputo global. Esta categoría la comprenden páginas como patents.google.com que recoge patentes emitidas en todo el mundo; wikipedia.org, la conocida enciclopedia online que puede ser editada por los usuarios; además de scribd.com, una biblioteca digital por suscripción.

El contenido buscado por las inteligencias artificiales también comprende algunos medios de comunicación y sitios web de recopilación de información; pero aunque muchos de ellos puedan ser fuentes fiables de producción de contenido que es útil para los usuarios, esto no implica que no se hayan incluido fuentes que aportan datos falsos, sesgados y en muchos casos incompleto.

Estos sitios web “informativos” incluyen aquellos que difunden teorías conspirativas o información falsa, además de datos que aportan pensamientos radicales que pueden ser dañinos para los usuarios, en caso de que esta información sea presentada a modo de respuesta a una consulta.

Una muestra del sesgo informativo es que, según el estudio, se detectó que de los 20 sitios web religiosos de los que se extraen datos, 14 de ellos eran cristianos, dos eran judíos y solo uno era de tendencia musulmana.

FUENTE: INFOBAE.COM

Últimas noticias

Te puede interesar

Lo más visto

Estas son las páginas web de las que ChatGPT extrae su información

Una gigantesca grieta está partiendo en dos un continente y se podría formar un nuevo océano

Bs.As. Un joven persiguió y mató a motochoro que minutos antes le había robado a su novia

Violó a sus cinco hijas en Calamuchita y lo condenaron a 15 años de prisión: ya tenía una sentencia similar

Rosario. Allanamiento en un club: sospechan que allí funcionaba un consultorio oftalmológico ilegal

Rosario. Un detenido y teléfono secuestrado a una policía por la balacera a la casa de Norma Acosta

Lanzaron una startup local que ayuda a cobrar la cuota social de clubes y ONG y ya tienen clientes en 4 países

¿Te bloquearon en WhatsApp?: las razones por las que una foto de perfil no aparece en el mensajero

La superpromesa que decepciona: los primeros usuarios de Ai Pin dicen que es “lento y torpe”

WhatsApp usará códigos QR para mejorar la privacidad: ¿cuál es el plan del mensajero?

Ocho claves para dominar ChatGPT

Una marca de computadoras retira 15 millones de cargadores por peligro de incendio

Cómo usar la nueva inteligencia artificial para WhatsApp que desgraba audios y escribe mensajes por vos

Las 7 apps indispensables para la escuela en este comienzo de clases

La palabra de Eva Bargiela tras confirmar su embarazo: "Muy emocionados"

Gigi Hadid y Bradley Cooper finalmente confirmaron su romance con una apasionada foto en sus redes

Quién es Ana Rivera, la novia de Renata Repetto con la que vive en España

Escándalo en el PAMI: ex funcionaria contó cómo operaban las coimas y los retornos dentro del organismo

Luciana Elbusto aclaró cuál es su vínculo con Diego Brancatelli: "Hablé con su mujer, ella lo sabe"

Thiago Medina rompió el silencio con Pronto y contó el verdadero motivo de su separación de Daniela Celis

Se separaron Laurita Fernández y Claudio “El Peluca” Brusca tras más de dos años en pareja

El dramático momento que vivió Kylie Jenner con sus zapatos en medio del Met Gala: “Me pegué los pies”

Shakira habló de más en la Met Gala, se dio cuenta demasiado tarde y se metió en problemas: “No se suponía”

León XIV, el Papa que vivió en el Perú: su relación con Chiclayo y la historia de su DNI peruano