大模型开发工程师
Tuhu
Shanghai, China
岗位职责:
1.负责主流及自研模型(如Qwen、DeepSeek、MiniMax等)的全链路运维,涵盖部署、监控、高可用保障与故障应急处理,构建可观测体系(日志/指标),确保模型服务稳定性与低延迟响应。
2.优化基于Docker/Kubernetes的模型部署与资源调度策略,提升GPU/CPU资源利用率,推动模型平滑升级与业务无损切换。
3.主导大模型运维平台建设,集成模型监控、评测、用量分析、成本分摊、批量推理及数据集管理等核心能力,提升运维自动化与智能化水平。
4.结合业务实际部署场景,基于sglang/vllm等开源推理引擎进行模型适配部署或二次开发
5.协同算法/业务团队,推动模型从实验到生产的全流程落地,持续跟进大模型与AIOps前沿技术,探索智能运维创新场景。
岗位要求:
1.计算机科学、人工智能等相关专业本科及以上学历。
2.精通Python,有sglang/vllm等开源推理引擎二次开发经验优先。
3.熟悉DeepSeek、GPT等主流大模型架构与训练推理流程,具备模型部署、性能调优及问题定位经验。
4.熟练使用Kubernetes、Docker等容器化技术,具备高并发、分布式系统运维与稳定性保障能力。
5具有运维平台或相关工具链开发经验,能够设计并实现监控、成本管控、自动化运维等系统模块。
6.优秀的问题分析与解决能力,能快速响应并处理线上故障,对技术挑战充满热情。
7.良好的跨团队沟通与协同能力,能主动推动技术落地与迭代,持续跟踪AI与运维领域前沿动态。
岗位职责:
1.负责主流及自研模型(如Qwen、DeepSeek、MiniMax等)的全链路运维,涵盖部署、监控、高可用保障与故障应急处理,构建可观测体系(日志/指标),确保模型服务稳定性与低延迟响应。
2.优化基于Docker/Kubernetes的模型部署与资源调度策略,提升GPU/CPU资源利用率,推动模型平滑升级与业务无损切换。
3.主导大模型运维平台建设,集成模型监控、评测、用量分析、成本分摊、批量推理及数据集管理等核心能力,提升运维自动化与智能化水平。
4.结合业务实际部署场景,基于sglang/vllm等开源推理引擎进行模型适配部署或二次开发
5.协同算法/业务团队,推动模型从实验到生产的全流程落地,持续跟进大模型与AIOps前沿技术,探索智能运维创新场景。
岗位要求:
1.计算机科学、人工智能等相关专业本科及以上学历。
2.精通Python,有sglang/vllm等开源推理引擎二次开发经验优先。
3.熟悉DeepSeek、GPT等主流大模型架构与训练推理流程,具备模型部署、性能调优及问题定位经验。
4.熟练使用Kubernetes、Docker等容器化技术,具备高并发、分布式系统运维与稳定性保障能力。
5具有运维平台或相关工具链开发经验,能够设计并实现监控、成本管控、自动化运维等系统模块。
6.优秀的问题分析与解决能力,能快速响应并处理线上故障,对技术挑战充满热情。
7.良好的跨团队沟通与协同能力,能主动推动技术落地与迭代,持续跟踪AI与运维领域前沿动态。