Spaces:

mintaeng
/

fut_gradio

Sleeping

fut_gradio / load_model.py

Create load_model.py

651da14 verified 8 months ago

1.11 kB

	import os
	import torch
	from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline
	from langchain_huggingface.llms import HuggingFacePipeline
	from unsloth import FastLanguageModel

	import dotenv
	dotenv()


	'''
	FastLanguageModel 사용하여 모델 불러오기

	Fine-tuning을 도와주는 Unsloth 패키지를 사용하여 모델 불러오기
	불러오는 모델 repo안에 adapter_config가 존재하면 안된다.

	빠른 추론 할 수 있도록 도와준다.

	'''
	def load_Fast():
	max_seq_length = 2048
	hf_token = os.getenv('hf_token')

	model, tokenizer = FastLanguageModel.from_pretrained(
	model_name="Dongwookss/last_small_pre", # adapter_config가 존재하지 않는 모델명으로 불러와야한다.
	max_seq_length=max_seq_length,
	dtype=None,
	load_in_4bit=False,
	token = hf_token,
	)

	pipe = pipeline(
	"text-generation",
	model=model,
	tokenizer=tokenizer,
	max_new_tokens=2048,
	)

	llm = HuggingFacePipeline(
	pipeline=pipe,
	model_kwargs={"temperature": 0.7},
	)
	return llm