- 計算機相關專業(yè)
- 機器學習算法/工程化經驗
- 英文讀寫能力良好
職位描述
1. 主導新一代機器學習大規(guī)模計算/超算平臺,不斷滿足AI算法開發(fā)、模型開發(fā)、應用開發(fā)人員所需的極致算力的要求。搭建、優(yōu)化和運維基于分布式通用計算(CPU)、異構計算(GPU、DSA、FPGA)等計算資源的AI云基礎設施,設計、開發(fā)和維護AI機器學習平臺及相關工具,建設智算集群庫存管理、算力調度、性能分析、故障自動化處理、租戶運維功能等核心產品能力,提升產品競爭力
2. 聯合算法團隊,搭建及優(yōu)化分布式機器學習訓練及推理系統(tǒng),能夠根據數據特點從算法和工程角度進行優(yōu)化和調優(yōu);基于云原生技術體系構建高可用的AI機器學習平臺,保障智算云的穩(wěn)定性、高效率和機制成本,讓平臺不斷適應業(yè)務發(fā)展的需求和趨勢。
職位要求
1. 熟悉機器學習系統(tǒng),有分布式機器學習系統(tǒng)優(yōu)化、異構計算優(yōu)化經驗,理解計算機視覺、自然語言處理、知識圖譜、聯邦學習等算法理論和實際項目落地經驗者優(yōu)先;
2. 頭部互聯網公司相關AI機器學平臺的產品定義和架構設計經驗,有BAT或國內外大型云計算公司工作經歷,參與過mindspore、PAI等大型AI平臺開發(fā)項目優(yōu)先;
3. 對IAAS、PAAS、分布式計算/存儲、K8S、大數據、容器、GPU資源虛擬化等技術有深入理解,對大規(guī)模GPU集群在實際應用中的性能、資源利用率、網絡等方面的工程問題有實踐經驗
4. 作風踏實嚴謹、責任心強,具備良好的團隊協(xié)作能力和推動力,善于解決負責問題。