- 強化學(xué)習(xí)
- 自然語言處理算法
- C/C++
崗位職責(zé):
深入研究、訓(xùn)練和應(yīng)用大規(guī)模預(yù)訓(xùn)練模型(LLM),包括但不限于多語言、多模態(tài)、訓(xùn)練任務(wù)的優(yōu)化、下游任務(wù)的遷移、知識融合更新和模型性能的提升等。在此過程中,著重強調(diào)與強化學(xué)習(xí)相關(guān)的應(yīng)用。
利用基于強化學(xué)習(xí)的 PPO 算法進(jìn)行微調(diào)自然語言處理預(yù)訓(xùn)練模型,以實現(xiàn)各類任務(wù)的對齊與性能提升。
積極參與公司領(lǐng)域特定的 GPT 模型的強化學(xué)習(xí)與自然語言處理模塊的研發(fā),為其增添RLHF(Reinforcement Learning with Human Feedback)元素。崗位要求:
碩士及以上學(xué)歷,專業(yè)背景可包括自動化、計算機科學(xué)、機械工程等相關(guān)領(lǐng)域。
精通強化學(xué)習(xí)領(lǐng)域的多種算法,包括但不限于 Actor-critic、GAIL、Q-Learning、PPO、Offline RL 等。能夠?qū)⑦@些算法應(yīng)用于自然語言處理任務(wù)中。
深刻理解強化學(xué)習(xí)與自然語言處理領(lǐng)域的基本原理,具備訓(xùn)練 RM(Reward Models)、PPO(Proximal Policy Optimization)、DPO(Deep Policy Optimization)等方面的經(jīng)驗。
具備從零開始構(gòu)建強化學(xué)習(xí)與自然語言處理訓(xùn)練集的能力,以滿足特定任務(wù)的需求。
出色的溝通與協(xié)作能力,具備跨團隊合作的經(jīng)驗,擁有卓越的項目規(guī)劃和執(zhí)行能力。
精通大規(guī)模模型的微調(diào)方法,能夠有效應(yīng)用多機并行策略,以實現(xiàn)任務(wù)效率與性能的提升。
深入了解學(xué)術(shù)界與行業(yè)內(nèi)最新的研究成果,包括但不限于對 instructGPT、LLaMa 等前沿技術(shù)的熟悉。
優(yōu)先考慮在國際頂級會議或期刊(如 ICLR、ICDE、ICML、NeurIPS、AAAI)上發(fā)表過相關(guān)領(lǐng)域論文的候選人。