oepn-ai-gpt

Nueva versión de GPT: funcionamiento en profundidad de la popular IA

El campo de la inteligencia artificial de la informática se ocupa de crear algoritmos y sistemas que sean capaces de aprender, tomar decisiones, detectar patrones y resolver problemas complejos, tareas que normalmente requieren inteligencia humana.

Esta tecnología es importante porque tiene el potencial de desarrollar soluciones novedosas en una variedad de campos, incluidos la industria, la seguridad, la educación y la medicina, al tiempo que aumenta la precisión y la eficiencia de los procesos automatizados. Para tomar decisiones bien informadas en los negocios y la política, la IA también se puede usar para encontrar patrones y tendencias en grandes cantidades de datos. Con todo esto, se podría incluso hasta hablar del dominio general de la inteligencia artificial en la siguiente década, aunque actualmente suene un poco descabellado pensarlo.

A continuación, se hablará acerca de una de las nuevas y fascinantes inteligencias artificiales, la cual está maravillando al mundo entero, pero que en realidad no se conoce generalmente el funcionamiento interno, llamado Chat GPT, además de la nueva versión y herramienta que ha sacado al mercado la empresa creadora.

 

¿DE QUE TRATA CHAT GPT?

Chat GPT (Generative Pre-trained Transformer) es un nuevo modelo de lenguaje, más avanzado que GPT-3, desarrollado también por Open AI, el cual es capaz de generar texto de manera autónoma, respondiendo a toda aquella pregunta o problema que se le proponga por parte de cualquier usuario, gracias al entreno exhaustivo que se ha realizado con anterioridad por parte de los creadores, con grandes cantidades de información tanto de libros, sitios webs o bases de  datos.

Realmente, se puede entender esta nueva tecnología como el solucionador de muchos problemas, gracias a las facilidades que propone a la hora de encontrar información. Pero, esta visión que tenemos acerca de Chat GPT se puede ver afectada después de haber leído este post, debido a que se explicará como realmente funciona, con una conclusión clara acerca de si es el futuro y si se sustituirá los conocidos buscadores por estos nuevos modelos de IA.

whatsapp-automatización

¿CÓMO ES SU FUNCIONAMIENTO?

El funcionamiento de este nuevo modelo se basa en GPT-3, un modelo con la capacidad de realizar un autocompletado del siguiente conjunto de palabras u oraciones en base a una frase dada. Este funcionamiento se debe gracias a las redes neuronales, las cuales son programas que son capaces de aprender a realizar tareas, y que también se puede llamar “aprendizaje automático”.

Para ejemplificar este modelo, se puede pensar en el autocompletado que proporciona la aplicación de mensajería WhatsApp, la cual después de cada palabra escrita

por el usuario, ofrezca opciones de las posibles palabras siguientes que el usuario pueda poner en su frase.

¿CÓMO TRABAJAN LAS REDES NEURONALES?

Las redes neuronales de Chat GPT se dividen en varias fases:

 

1.    TOKENIZACIÓN

Esta primera fase se centra en el entendimiento de los ordenadores hacia los textos escritos por humanos, donde estas máquinas solo entienden cada letra como número y no como contexto semántico.

Es aquí donde entra el funcionamiento de las redes neuronales, intentando buscar patrones numéricos en todos los textos posibles, asignando a cada patrón un token numérico para simplificar el tamaño numérico que tiene cada texto.

 

2.    EMBEDING

Posteriormente, se entra en la segunda fase, donde conjuntos de tokens creados son marcados por otros tokens con el fin de saber que tokens van a ir juntos.

Por ejemplo, después del entrenamiento de varios textos, las redes neuronales empiezan a saber que las palabras ‘la’ y ‘reina’ suelen ir juntos o tienen una alta probabilidad de que ambas coincidan una al lado de la otra. Es por ello por lo que se marcan ambas palabras con tokens para saber que ambas palabras tienen una alta probabilidad de coincidir.

A partir de aquí, se empiezan a crear nubes o mapas de tokens marcados para visualizar de manera gráfica las probabilidades que tiene cada token de aparecer posteriormente a la palabra que se encuentra.

También se puede entender como que cada token está diseñado como un código de barras en el cual se marca a cada token con varios aspectos que entienden las redes neuronales para la facilidad de ordenar y clasificar estos. Además, a partir de aquí se pueden realizar incluso operaciones matemáticas para encontrar otros tokens, como se puede ver a continuación:

vectores-marcadores-embeding

Por último, en el caso de GPT-3 lo ha llevado al siguiente nivel, marcando frases o secuencias de tokens, ordenándolos y clasificándolos por sus correlaciones y marcadores dentro del mapa de marcadores y tokens.

 

2.1.        SIMPLIFICACIÓN

En esta fase, el modelo empieza por eliminar todos los tokens de poco uso o genéricos, como ‘la’, ‘el’, ‘otros’ o incluso también mayúsculas, puntos, etc. Esto se hace debido al poco significado que el programa encuentra a estos tokens.

Por ejemplo, el programa reduce la frase “El gato está durmiendo en el sofá.” a “gato dormir sofá”, donde se ha eliminado los tokens genéricos, además de realizar un proceso de conversión de las palabras a su forma más sencilla (lematización). Esto ayuda en el proceso de embeding, gracias a la simplificación de frases.

 

2.2.        RECONSTRUCCIÓN

Una vez se ha realizado la simplificación, sigue una fase clave para el entendimiento de Chat GPT. En esta, el usuario le hace llegar frases al programa, donde este convierte cada frase a una manera simplificada, para buscar las palabras o tokens con alta probabilidad de parecido de las propias frases dadas por el usuario.

Es aquí donde empieza esta nueva fase, dando lugar a la reconstrucción de todas aquellas frases que se habían simplificado para encontrar las que más se parecen. Pero, debido a que el programa había eliminado parte del contenido de cada frase, su función ahora es reconstruir con nuevas palabras o tokens cada una de las frases, realizando oraciones nuevas y únicas, como si hubiera entendido el significado de cada una de ellas y las estuviera rescribiendo de forma diferente.

Es decir, Chat GPT genera frases únicas, debido a la simplificación de las oraciones leídas en textos y la posterior reconstrucción con palabras que contienen alta probabilidad en el sistema de embeding de estar juntas.

Todo esto se puede ejemplificar cuando se entabla una conversación entre dos personas y al día siguiente una le pregunta a la otra de que se habló el día anterior. En este caso, la persona no contestará con las mismas palabras que se dijeron, sino que intentará transmitirlo, juntando palabras que entendió con sus propias palabras.

3.    TRANSFORMERS

En su día, las redes neuronales presentaban defectos que perjudicaban a todo el proceso nombrado y comentado hasta ahora. En primer lugar, se podría hablar de uno de los principales problemas, el cual es que tiene una memoria limitada, debido a que no recuerda el resultado de cada búsqueda de token. Además, las soluciones que se plantearon no pensaron en la paralelización de los procesos para la propia solución, siendo un problema más a tener en cuenta.

Pero, en 2017, se planteó la solución por parte de Google, donde básicamente se añadiría una nueva capa llamada ‘Attention’. Esta nueva capa trataría de “presta atención” a los textos para entender el contexto de cada uno de ellos y sacar la información útil.

Básicamente, el programa tendría en cuenta los vectores o “códigos de barras” de marcadores del sistema de embeding nombrados anteriormente, calculando la proximidad o probabilidad de similitud dentro de una misma frase. Con este nuevo proceso, similar al de simplificación, se quería entender aquellas palabras que se quedaban al final como las más importantes y que debía tener en cuenta el programa para entender el contexto.

Por ejemplo, gracias a este nuevo proceso, el programa ya puede diferenciar ente ‘gato’ como animal y ‘gato’ como herramienta. Esto permite, no solo a Chat GPT, sino a buscadores por ejemplo a centrarse más en el significado y no en la relación de las palabras entre sí.

Además, este nuevo proceso se puede realizar paralelamente en muchos más ordenadores, permitiendo la reducción de tiempo.

 

4.    SAMPLING

Por último, se encuentra la fase creativa, donde se aplica un estilo o creatividad a cada frase escrita. Esto lo que hace es generar diferentes respuestas a cada problema, aplicando diferentes secuencias aleatorias de tokens, sin desvirase del significado original de la respuesta.

 

¿DE DONDE SACA TODA LA INFORMACIÓN?

  • Common Crawl (base de información de internet gigantesca): con toda la información en internet entre los años 2016-2019.
  • WebText2 (una web de texto con información extendida de post de Reddit y enlaces)
  • Bibliotecas de libros
  • Wikipedia
  • Conclusiones realizadas por humanos, con el fin de que Chat GPT tuviera un aprendizaje supervisado y que no tuviera que entender el contexto y la relación de las palabras por su cuenta, como si lo había hecho hasta ahora.
  • Reinforcment Learning From Human Feedback (RLFHF): donde se intenta generar más respuestas y valorar los caminos escogidos por la máquina para ver el más conveniente e interesante.

 

¿MATERIAL USADO?

  • Grandes cantidades de gráficas A100 Nvidia
  • Data Center Microsoft (con una inversión por parte de la propia compañía de Microsoft de 10.000 millones de dólares y el cual pose el 49% de la empresa Open AI).

 

¿QUÉ APORTA LA NUEVA VERSIÓN GPT-4?

Dentro de las nuevas funcionalidades que aporta la nueva versión de GPT-4, presentado por Open AI, se encuentran:

  • Extensión en la longitud de la generación de respuestas (hasta 25.000 palabras): esta nueva mejora permite generar respuestas mucho más extensas, superando hasta ocho veces la extensión permitida en comparación a Chat GPT. Esta nueva mejora aumenta mucho más las posibilidades de respuesta, pudiendo crear desde una página web hasta resolver preguntas complejas con la declaración de impuestos, aunque siempre es mejor consultar con su asesor fiscal, según las propias declaraciones de Brockman.
  • ‘Be My Eyes’: una nueva herramienta capaz de entender y analizar imágenes, describiendo todo aquello que el nuevo programa visualice en la imagen y dando una explicación de la situación que se está dando en la misma. Por ejemplo, Brockman procedió a mostrar esta nueva herramienta, preguntando a la misma por qué era gracioso un dibujo de una ardilla sacando fotos a una nuez. En este momento, la herramienta le contestó lo siguiente:

“La imagen es graciosa porque muestra a una ardilla sosteniendo una cámara y fotografiando a una nuez como si fuera un fotógrafo profesional. Es una situación graciosa porque las ardillas generalmente comen nueces y no esperamos que usen una cámara o actúen como humanos”

  • Perfeccionamiento y creatividad: esta nueva versión permitirá una mayor creatividad y precisión en la resolución de los diferentes problemas que se le plantee, debido a su entrenamiento mucho más amplio que Chat GPT.

gpt-4

¿SUSTITUIRÁ A LOS CONOCIDOS BUSCADORES?

Es muy pronto para poder hablar acerca de la sustitución de los buscadores por IA, debido a uno de los principales problemas que aún alberga tanto Chat GPT  como otros modelos de IA y es la veracidad de las respuestas que produce, debido a que generalmente se genera respuestas sin sentido o totalmente falsas.

Según el presidente y cofundador Greg Brockman, la herramienta no es perfecta y posee errores, pero lo compara con la no perfección de los humanos y ensalza la herramienta, añadiendo que la perfección se podrá conseguir trabajando junto a ella.

 

Comments (15171)