30 ene 2024
Cómo ejecutar Code Llama (13B/70B) en Mac
Ejecutar Llama2(13B/70B) en tu Mac no es tan difícil como podrías pensar. Lee el tutorial a continuación.
Cuál es la diferencia entre los diferentes modelos?
Modelos de chat
Los modelos de Llama altamente reconocidos de Meta AI son conocidos como "modelos de chat". Estos modelos están mejorados con datos de conjuntos de instrucciones públicas y más de un millón de reseñas humanas.
meta/llama-2-70b-chat: Un modelo de 70 mil millones de parámetros mejorado para respuestas de conversación. Opta por este si tu objetivo es crear un bot de chat con máxima precisión.
meta/llama-2-13b-chat: Un modelo de 13 mil millones de parámetros, también mejorado para respuestas de conversación. Elige esto para un proyecto de bot de chat donde la velocidad y la rentabilidad son prioritarias sobre la exactitud.
meta/llama-2-7b-chat: Un modelo de 7 mil millones de parámetros, aún más refinado para respuestas de conversación rápidas. Esta es una opción más pequeña y rápida.
Modelos base
Más allá de los modelos centrados en la conversación, Meta AI también ha introducido una variedad de modelos base. Estos son adecuados para tareas diversas basadas en el lenguaje, como extender el texto de un usuario, ayudar en la codificación, completar series o abordar tareas específicas como categorizar:
meta/llama-2-7b: Un modelo con 7 mil millones de parámetros
meta/llama-2-13b: Un modelo con 13 mil millones de parámetros
meta/llama-2-70b: Un modelo con 70 mil millones de parámetros
Cómo ejecutar Llama2 (13B/70B) en Mac
Para ejecutar Llama2 (13B/70B) en tu Mac, puedes seguir los pasos descritos a continuación:
Descargar Llama2:
Obtén el archivo download.sh y guárdalo en tu Mac.
Abre la terminal de Mac y otorga la autoridad necesaria al archivo ejecutando el comando:
chmod +x ./download.sh
.Inicia el proceso de descarga ejecutando el comando:
./download.sh
.Copia el enlace de descarga recibido por correo electrónico y pégalo en la terminal.
Instalar Dependencias del Sistema:
Asegúrate de que Xcode esté instalado para compilar el proyecto C++. Si no lo está, ejecuta el comando:
xcode-select --install
.Instala las dependencias necesarias para construir el proyecto C++ usando Homebrew ejecutando:
brew install pkgconfig cmake
.Instala Torch ejecutando:
brew install python@3.11
.
Crear un Entorno Virtual:
Crea un entorno virtual ejecutando el siguiente comando:
/opt/homebrew/bin/python3.11 -m venv venv
.Activa el entorno virtual usando el comando:
source venv/bin/activate
.
Instalar PyTorch:
Instala PyTorch ejecutando:
pip install --pre torch torchvision --extra-index-url https://download.pytorch.org/whl/nightly/cpu
.
Compilar llama.cpp:
Clona el repositorio llama.cpp ejecutando:
git clone https://github.com/ggerganov/llama.cpp.git
.Instala las dependencias requeridas ejecutando:
pip3 install -r requirements.txt
.Compila llama.cpp ejecutando:
LLAMA_METAL=1 make
.
Mover los Modelos:
Mueve los modelos 13B y 70B descargados al proyecto llama.cpp en la carpeta "models".
Convertir el Modelo al Formato ggml:
Convierte el modelo 13B al formato ggml ejecutando:
python3 convert.py --outfile ./models/llama-2-13b-chat/ggml-model-f16.bin --outtype f16 ./models/llama-2-13b-chat
Convierte el modelo 70B al formato ggml ejecutando:
python3 convert.py --outfile models/llama-2-70b-chat/ggml-model-f16.bin --outtype f16 ./models/llama-2-70b-chat
Cuantificar el Modelo:
Para ejecutar los LLM en tu Mac, necesitas cuantificar el modelo. Para el modelo 13B, ejecuta:
./quantize ./models/llama-2-13b-chat/ggml-model-f16.bin ./models/llama-2-13b-chat/ggml-model-q4_0.bin q4_0
Para el modelo 70B, ejecuta:
./quantize ./models/llama-2-70b-chat/ggml-model-f16.bin ./models/llama-2-70b-chat/ggml-model-q4_0.bin q4_0
Ejecutar el Modelo:
Finalmente, puedes ejecutar el modelo en la terminal usando los siguientes comandos:
Para 13B-chat (solo CPU):
Para habilitar la inferencia de GPU, agrega el argumento de línea de comandos -ngl 1
. Por ejemplo:
Para 70B-chat (solo CPU):
Ten en cuenta que actualmente, solo se admite la CPU para 70B-chat. Siguiendo estos pasos, podrás ejecutar Llama2 (13B/70B) en tu Mac sin la necesidad de GPU, internet, OpenAI o cualquier proveedor de servicios en la nube.