awni · August 20, 2024 15:43 · fblissjr · Sep 9, 2024
diff --git a/mlx_api_prompt.py b/mlx_api_prompt.py
 import os
 import mlx.core as mx
 from mlx_lm import load, generate

 filename = os.path.join(os.path.dirname(mx.__file__), "core/__init__.pyi")
 with open(filename, 'r') as fid:
    prompt = fid.read()
 prompt += "\nHow do you write a self-attention layer using the above API in MLX?"

 model, tokenizer = load("mlx-community/meta-Llama-3.1-8B-Instruct-4bit")

 messages = [{"role": "user", "content": prompt}]

 prompt = tokenizer.apply_chat_template(
    messages, tokenize=False, add_generation_prompt=True
 )

 generate(
    model,
    tokenizer,
    prompt,
    512,
    verbose=True,
    temp=0.0,
    max_kv_size=4096,
 )
	import os
	import mlx.core as mx
	from mlx_lm import load, generate

	filename = os.path.join(os.path.dirname(mx.__file__), "core/__init__.pyi")
	with open(filename, 'r') as fid:
	prompt = fid.read()
	prompt += "\nHow do you write a self-attention layer using the above API in MLX?"

	model, tokenizer = load("mlx-community/meta-Llama-3.1-8B-Instruct-4bit")

	messages = [{"role": "user", "content": prompt}]

	prompt = tokenizer.apply_chat_template(
	messages, tokenize=False, add_generation_prompt=True
	)

	generate(
	model,
	tokenizer,
	prompt,
	512,
	verbose=True,
	temp=0.0,
	max_kv_size=4096,
	)