Spaces:
Sleeping
Sleeping
import os | |
import torch | |
from transformers import AutoTokenizer, AutoModelForCausalLM, pipeline | |
from langchain_huggingface.llms import HuggingFacePipeline | |
from unsloth import FastLanguageModel | |
import dotenv | |
dotenv() | |
''' | |
FastLanguageModel 사용하여 모델 불러오기 | |
Fine-tuning을 도와주는 Unsloth 패키지를 사용하여 모델 불러오기 | |
불러오는 모델 repo안에 adapter_config가 존재하면 안된다. | |
빠른 추론 할 수 있도록 도와준다. | |
''' | |
def load_Fast(): | |
max_seq_length = 2048 | |
hf_token = os.getenv('hf_token') | |
model, tokenizer = FastLanguageModel.from_pretrained( | |
model_name="Dongwookss/last_small_pre", # adapter_config가 존재하지 않는 모델명으로 불러와야한다. | |
max_seq_length=max_seq_length, | |
dtype=None, | |
load_in_4bit=False, | |
token = hf_token, | |
) | |
pipe = pipeline( | |
"text-generation", | |
model=model, | |
tokenizer=tokenizer, | |
max_new_tokens=2048, | |
) | |
llm = HuggingFacePipeline( | |
pipeline=pipe, | |
model_kwargs={"temperature": 0.7}, | |
) | |
return llm |