plano/model_server/app/commons/constants.py

import app.commons.globals as glb
import app.commons.utilities as utils
import app.loader as loader

from app.function_calling.model_handler import ArchFunctionHandler
from app.prompt_guard.model_handler import ArchGuardHanlder

logger = utils.get_model_server_logger()

arch_function_hanlder = ArchFunctionHandler()
PREFILL_LIST = ["May", "Could", "Sure", "Definitely", "Certainly", "Of course", "Can"]
PREFILL_ENABLED = True
TOOL_CALL_TOKEN = "<tool_call>"
arch_function_endpoint = "https://api.fc.archgw.com/v1"
arch_function_client = utils.get_client(arch_function_endpoint)
arch_function_generation_params = {
    "temperature": 0.2,
    "top_p": 1.0,
    "top_k": 50,
    "max_tokens": 512,
    "stop_token_ids": [151645],
    #    "top_logprobs": 10,
}

arch_guard_model_type = {
    "cpu": "katanemo/Arch-Guard-cpu",
    "cuda": "katanemo/Arch-Guard",
    "mps": "katanemo/Arch-Guard",
}

# Model definition
embedding_model = loader.get_embedding_model()
zero_shot_model = loader.get_zero_shot_model()

prompt_guard_dict = loader.get_prompt_guard(arch_guard_model_type[glb.DEVICE])

arch_guard_handler = ArchGuardHanlder(model_dict=prompt_guard_dict)
# Patterns for function name and parameter parsing
Update model_server (#164) * Update model server * Delete model_server/.vscode/settings.json * Update loader.py * Fix errors * Update log mode 2024-10-09 18:04:52 -07:00			`import app.commons.globals as glb`
			`import app.commons.utilities as utils`
			`import app.loader as loader`

			`from app.function_calling.model_handler import ArchFunctionHandler`
			`from app.prompt_guard.model_handler import ArchGuardHanlder`

Improve cli (#179) 2024-10-10 17:44:41 -07:00			`logger = utils.get_model_server_logger()`
Update model_server (#164) * Update model server * Delete model_server/.vscode/settings.json * Update loader.py * Fix errors * Update log mode 2024-10-09 18:04:52 -07:00
			`arch_function_hanlder = ArchFunctionHandler()`
add prefill and test (#236) * add prefill and test * fix stream * fix * feedback * address comments * update * add e2e test * fix e2e test * update fix * fix * address cmt * address cmt 2024-11-07 11:59:29 -08:00			`PREFILL_LIST = ["May", "Could", "Sure", "Definitely", "Certainly", "Of course", "Can"]`
			`PREFILL_ENABLED = True`
			`TOOL_CALL_TOKEN = "<tool_call>"`
Update model_server (#164) * Update model server * Delete model_server/.vscode/settings.json * Update loader.py * Fix errors * Update log mode 2024-10-09 18:04:52 -07:00			`arch_function_endpoint = "https://api.fc.archgw.com/v1"`
			`arch_function_client = utils.get_client(arch_function_endpoint)`
			`arch_function_generation_params = {`
			`"temperature": 0.2,`
			`"top_p": 1.0,`
			`"top_k": 50,`
			`"max_tokens": 512,`
			`"stop_token_ids": [151645],`
hallucination with log probs (#281) * first init * fix * fix test * new implemenetation * fix bug * fix bug * fix bug * address issue * address issues * address comments * fix test * fix * move constatns * remove consts 2024-11-27 15:17:02 -08:00			`# "top_logprobs": 10,`
Update model_server (#164) * Update model server * Delete model_server/.vscode/settings.json * Update loader.py * Fix errors * Update log mode 2024-10-09 18:04:52 -07:00			`}`

Refactor model server hardware config + add unit tests to load/request to the server (#189) * remove mode/hardware * add test and pre commit hook * add pytest dependieces * fix format * fix lint * fix precommit * fix pre commit * fix pre commit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit 2024-10-16 16:58:10 -07:00			`arch_guard_model_type = {`
			`"cpu": "katanemo/Arch-Guard-cpu",`
			`"cuda": "katanemo/Arch-Guard",`
			`"mps": "katanemo/Arch-Guard",`
			`}`
Update model_server (#164) * Update model server * Delete model_server/.vscode/settings.json * Update loader.py * Fix errors * Update log mode 2024-10-09 18:04:52 -07:00
			`# Model definition`
			`embedding_model = loader.get_embedding_model()`
			`zero_shot_model = loader.get_zero_shot_model()`

Refactor model server hardware config + add unit tests to load/request to the server (#189) * remove mode/hardware * add test and pre commit hook * add pytest dependieces * fix format * fix lint * fix precommit * fix pre commit * fix pre commit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit * fix precommit 2024-10-16 16:58:10 -07:00			`prompt_guard_dict = loader.get_prompt_guard(arch_guard_model_type[glb.DEVICE])`
Update model_server (#164) * Update model server * Delete model_server/.vscode/settings.json * Update loader.py * Fix errors * Update log mode 2024-10-09 18:04:52 -07:00
			`arch_guard_handler = ArchGuardHanlder(model_dict=prompt_guard_dict)`
hallucination with log probs (#281) * first init * fix * fix test * new implemenetation * fix bug * fix bug * fix bug * address issue * address issues * address comments * fix test * fix * move constatns * remove consts 2024-11-27 15:17:02 -08:00			`# Patterns for function name and parameter parsing`