plano/model_server/app/loader.py

import os
import app.commons.globals as glb

from transformers import AutoTokenizer, AutoModel, pipeline
from optimum.onnxruntime import (
    ORTModelForFeatureExtraction,
    ORTModelForSequenceClassification,
)
import app.commons.utilities as utils
import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer
from optimum.intel import OVModelForSequenceClassification


logger = utils.get_model_server_logger()


def get_embedding_model(
    model_name=os.getenv("MODELS", "katanemo/bge-large-en-v1.5"),
):
    logger.info("Loading Embedding Model...")

    if glb.DEVICE != "cuda":
        model = ORTModelForFeatureExtraction.from_pretrained(
            model_name, file_name="onnx/model.onnx"
        )
    else:
        model = AutoModel.from_pretrained(model_name, device_map=glb.DEVICE)

    embedding_model = {
        "model_name": model_name,
        "tokenizer": AutoTokenizer.from_pretrained(model_name, trust_remote_code=True),
        "model": model,
    }

    return embedding_model


def get_zero_shot_model(
    model_name=os.getenv("ZERO_SHOT_MODELS", "katanemo/bart-large-mnli"),
):
    logger.info("Loading Zero-shot Model...")

    if glb.DEVICE != "cuda":
        model = ORTModelForSequenceClassification.from_pretrained(
            model_name, file_name="onnx/model.onnx"
        )
    else:
        model = model_name

    zero_shot_model = {
        "model_name": model_name,
        "tokenizer": AutoTokenizer.from_pretrained(model_name),
        "model": model,
    }

    zero_shot_model["pipeline"] = pipeline(
        "zero-shot-classification",
        model=zero_shot_model["model"],
        tokenizer=zero_shot_model["tokenizer"],
        device=glb.DEVICE,
    )

    return zero_shot_model


def get_prompt_guard(model_name):
    logger.info("Loading Guard Model...")

    if glb.DEVICE == "cpu":
        model_class = OVModelForSequenceClassification
    else:
        model_class = AutoModelForSequenceClassification

    prompt_guard = {
        "device": glb.DEVICE,
        "model_name": model_name,
        "tokenizer": AutoTokenizer.from_pretrained(model_name, trust_remote_code=True),
        "model": model_class.from_pretrained(
            model_name, device_map=glb.DEVICE, low_cpu_mem_usage=True
        ),
    }

    return prompt_guard
Update model_server (#164) * Update model server * Delete model_server/.vscode/settings.json * Update loader.py * Fix errors * Update log mode 2024-10-09 18:04:52 -07:00			`import os`
			`import app.commons.globals as glb`

			`from transformers import AutoTokenizer, AutoModel, pipeline`
			`from optimum.onnxruntime import (`
			`ORTModelForFeatureExtraction,`
			`ORTModelForSequenceClassification,`
			`)`
Improve cli (#179) 2024-10-10 17:44:41 -07:00			`import app.commons.utilities as utils`
Refactor model server hardware config + add unit tests to load/request to the server (#189) * remove mode/hardware * add test and pre commit hook * add pytest dependieces * fix format * fix lint * fix precommit * fix pre commit * fix pre commit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit 2024-10-16 16:58:10 -07:00			`import torch`
			`from transformers import AutoModelForSequenceClassification, AutoTokenizer`
			`from optimum.intel import OVModelForSequenceClassification`

Improve cli (#179) 2024-10-10 17:44:41 -07:00
			`logger = utils.get_model_server_logger()`
Update model_server (#164) * Update model server * Delete model_server/.vscode/settings.json * Update loader.py * Fix errors * Update log mode 2024-10-09 18:04:52 -07:00

			`def get_embedding_model(`
			`model_name=os.getenv("MODELS", "katanemo/bge-large-en-v1.5"),`
			`):`
Improve cli (#179) 2024-10-10 17:44:41 -07:00			`logger.info("Loading Embedding Model...")`
Update model_server (#164) * Update model server * Delete model_server/.vscode/settings.json * Update loader.py * Fix errors * Update log mode 2024-10-09 18:04:52 -07:00
			`if glb.DEVICE != "cuda":`
			`model = ORTModelForFeatureExtraction.from_pretrained(`
			`model_name, file_name="onnx/model.onnx"`
			`)`
			`else:`
			`model = AutoModel.from_pretrained(model_name, device_map=glb.DEVICE)`

			`embedding_model = {`
			`"model_name": model_name,`
			`"tokenizer": AutoTokenizer.from_pretrained(model_name, trust_remote_code=True),`
			`"model": model,`
			`}`

			`return embedding_model`


			`def get_zero_shot_model(`
change nli model (#167) * change nli model * Fix bug in hallucination --------- Co-authored-by: Shuguang Chen <54548843+nehcgs@users.noreply.github.com> 2024-10-09 19:10:08 -07:00			`model_name=os.getenv("ZERO_SHOT_MODELS", "katanemo/bart-large-mnli"),`
Update model_server (#164) * Update model server * Delete model_server/.vscode/settings.json * Update loader.py * Fix errors * Update log mode 2024-10-09 18:04:52 -07:00			`):`
Improve cli (#179) 2024-10-10 17:44:41 -07:00			`logger.info("Loading Zero-shot Model...")`
Update model_server (#164) * Update model server * Delete model_server/.vscode/settings.json * Update loader.py * Fix errors * Update log mode 2024-10-09 18:04:52 -07:00
			`if glb.DEVICE != "cuda":`
			`model = ORTModelForSequenceClassification.from_pretrained(`
			`model_name, file_name="onnx/model.onnx"`
			`)`
			`else:`
			`model = model_name`

			`zero_shot_model = {`
			`"model_name": model_name,`
			`"tokenizer": AutoTokenizer.from_pretrained(model_name),`
			`"model": model,`
			`}`

			`zero_shot_model["pipeline"] = pipeline(`
			`"zero-shot-classification",`
			`model=zero_shot_model["model"],`
			`tokenizer=zero_shot_model["tokenizer"],`
			`device=glb.DEVICE,`
			`)`

			`return zero_shot_model`


Refactor model server hardware config + add unit tests to load/request to the server (#189) * remove mode/hardware * add test and pre commit hook * add pytest dependieces * fix format * fix lint * fix precommit * fix pre commit * fix pre commit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit 2024-10-16 16:58:10 -07:00			`def get_prompt_guard(model_name):`
Improve cli (#179) 2024-10-10 17:44:41 -07:00			`logger.info("Loading Guard Model...")`
Update model_server (#164) * Update model server * Delete model_server/.vscode/settings.json * Update loader.py * Fix errors * Update log mode 2024-10-09 18:04:52 -07:00
Refactor model server hardware config + add unit tests to load/request to the server (#189) * remove mode/hardware * add test and pre commit hook * add pytest dependieces * fix format * fix lint * fix precommit * fix pre commit * fix pre commit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit 2024-10-16 16:58:10 -07:00			`if glb.DEVICE == "cpu":`
Update model_server (#164) * Update model server * Delete model_server/.vscode/settings.json * Update loader.py * Fix errors * Update log mode 2024-10-09 18:04:52 -07:00			`model_class = OVModelForSequenceClassification`
Refactor model server hardware config + add unit tests to load/request to the server (#189) * remove mode/hardware * add test and pre commit hook * add pytest dependieces * fix format * fix lint * fix precommit * fix pre commit * fix pre commit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit 2024-10-16 16:58:10 -07:00			`else:`
Update model_server (#164) * Update model server * Delete model_server/.vscode/settings.json * Update loader.py * Fix errors * Update log mode 2024-10-09 18:04:52 -07:00			`model_class = AutoModelForSequenceClassification`

			`prompt_guard = {`
Refactor model server hardware config + add unit tests to load/request to the server (#189) * remove mode/hardware * add test and pre commit hook * add pytest dependieces * fix format * fix lint * fix precommit * fix pre commit * fix pre commit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit 2024-10-16 16:58:10 -07:00			`"device": glb.DEVICE,`
Update model_server (#164) * Update model server * Delete model_server/.vscode/settings.json * Update loader.py * Fix errors * Update log mode 2024-10-09 18:04:52 -07:00			`"model_name": model_name,`
			`"tokenizer": AutoTokenizer.from_pretrained(model_name, trust_remote_code=True),`
			`"model": model_class.from_pretrained(`
Refactor model server hardware config + add unit tests to load/request to the server (#189) * remove mode/hardware * add test and pre commit hook * add pytest dependieces * fix format * fix lint * fix precommit * fix pre commit * fix pre commit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit 2024-10-16 16:58:10 -07:00			`model_name, device_map=glb.DEVICE, low_cpu_mem_usage=True`
Update model_server (#164) * Update model server * Delete model_server/.vscode/settings.json * Update loader.py * Fix errors * Update log mode 2024-10-09 18:04:52 -07:00			`),`
			`}`

			`return prompt_guard`