多模态大模型算法
Tuhu
岗位职责:
1.负责多模态大模型(如LLM,视觉-语言模型VLM、视频理解模型 等)的算法研发与工程实现。
2.深入参与模型设计、数据构建与预处理、模型训练、微调、评估及优化全流程。
3.负责和参与模型在下游任务(如图文问答、图像识别、多模态RAG、智能监控等)的应用开发与性能提升。
4.跟踪学术界和工业界在多模态学习、大模型训练、计算机视觉等领域的最新进展,并应用于实际项目。
5.与工程、产品团队紧密协作,推动算法技术的落地和产品化。
任职要求:
1.计算机科学、软件工程、人工智能等相关专业硕士及以上学历,3年以上相关工作经验;
2.深入理解计算机视觉、深度学习基础理论,熟悉图像分类、目标检测、视频分类等常用CV算法和模型(如CNN, ViT等)。具备多模态理解背景,熟悉图像/视频与文本的联合表征学习、跨模态对齐、多模态融合等技术,了解CLIP, BLIP, VideoMAE等模型;
3.熟悉大模型原理和训练方法,训练或微调过大语言模型(如GPT、LLaMA)或视觉-语言模型(LLaVA);熟悉模型训练框架和技术,精通至少一种主流深度学习框架,有分布式训练经验(如使用DeepSpeed, Megatron-LM)者优先。
4.具备一定的算法工程知识,熟悉模型压缩、量化、推理加速等工程化技术者优先;代码动手能力强,熟练掌握Python、shell、SQL等工具,具有良好的代码风格和工程实践习惯,能够独立完成算法原型开发、调试和测试。
5.具有良好的学习能力,强烈的技术热情,优秀的沟通协作能力和团队合作精神,积极主动,责任心强。
岗位职责:
1.负责多模态大模型(如LLM,视觉-语言模型VLM、视频理解模型 等)的算法研发与工程实现。
2.深入参与模型设计、数据构建与预处理、模型训练、微调、评估及优化全流程。
3.负责和参与模型在下游任务(如图文问答、图像识别、多模态RAG、智能监控等)的应用开发与性能提升。
4.跟踪学术界和工业界在多模态学习、大模型训练、计算机视觉等领域的最新进展,并应用于实际项目。
5.与工程、产品团队紧密协作,推动算法技术的落地和产品化。
任职要求:
1.计算机科学、软件工程、人工智能等相关专业硕士及以上学历,3年以上相关工作经验;
2.深入理解计算机视觉、深度学习基础理论,熟悉图像分类、目标检测、视频分类等常用CV算法和模型(如CNN, ViT等)。具备多模态理解背景,熟悉图像/视频与文本的联合表征学习、跨模态对齐、多模态融合等技术,了解CLIP, BLIP, VideoMAE等模型;
3.熟悉大模型原理和训练方法,训练或微调过大语言模型(如GPT、LLaMA)或视觉-语言模型(LLaVA);熟悉模型训练框架和技术,精通至少一种主流深度学习框架,有分布式训练经验(如使用DeepSpeed, Megatron-LM)者优先。
4.具备一定的算法工程知识,熟悉模型压缩、量化、推理加速等工程化技术者优先;代码动手能力强,熟练掌握Python、shell、SQL等工具,具有良好的代码风格和工程实践习惯,能够独立完成算法原型开发、调试和测试。
5.具有良好的学习能力,强烈的技术热情,优秀的沟通协作能力和团队合作精神,积极主动,责任心强。