MiniMax-01: El Modelo Vision-Language de China que Desafía a GPT-4V con Arquitectura MoE

26 de enero de 2025

MiniMax-01 representa un breakthrough en modelos multimodales, combinando capacidades de visión y lenguaje con una arquitectura Mixture of Experts (MoE) que logra performance comparable a GPT-4V con significativamente menos parámetros activos. Arquitectura Técnica Innovadora MiniMax-01 implementa una arquitectura MoE híbrida única: # Pseudocódigo de la arquitectura MoE class MiniMaxVisionLanguageModel: def __init__(self): self.vision_encoder = VisionTransformer( patch_size=14, […]

Leer más

Scaling Retrieval-Based Language Models: El Paper que Redefine la Eficiencia en LLMs

25 de enero de 2025

El paper «Scaling Retrieval-Based Language Models» presenta un paradigma revolucionario para escalar LLMs mediante retrieval, logrando performance de modelos 10x más grandes con fraction del costo computacional. Contribuciones Técnicas Principales Los autores demuestran que los modelos retrieval-based siguen leyes de escalado diferentes: # Ley de escalado tradicional loss_traditional = alpha * (N ** -beta) # […]

Leer más