強化學(xué)習(xí)算法專家

40-60K·14薪

代招公司：好未來北京 3-5年碩士

感興趣立即溝通

火星時代教育：中國數(shù)字藝術(shù)教育高端品牌

...

餐補全勤獎節(jié)日福利定期體檢商業(yè)保險購房福利補充醫(yī)療保險帶薪年假不定期培訓(xùn) 五險一金年終獎

相似職位更多相似職位

查看全部職位

職位描述

強化學(xué)習(xí)
自然語言處理算法
C/C++

崗位職責(zé)：深入研究、訓(xùn)練和應(yīng)用大規(guī)模預(yù)訓(xùn)練模型（LLM），包括但不限于多語言、多模態(tài)、訓(xùn)練任務(wù)的優(yōu)化、下游任務(wù)的遷移、知識融合更新和模型性能的提升等。在此過程中，著重強調(diào)與強化學(xué)習(xí)相關(guān)的應(yīng)用。利用基于強化學(xué)習(xí)的 PPO 算法進(jìn)行微調(diào)自然語言處理預(yù)訓(xùn)練模型，以實現(xiàn)各類任務(wù)的對齊與性能提升。積極參與公司領(lǐng)域特定的 GPT 模型的強化學(xué)習(xí)與自然語言處理模塊的研發(fā)，為其增添RLHF（Reinforcement Learning with Human Feedback）元素。崗位要求：碩士及以上學(xué)歷，專業(yè)背景可包括自動化、計算機科學(xué)、機械工程等相關(guān)領(lǐng)域。精通強化學(xué)習(xí)領(lǐng)域的多種算法，包括但不限于 Actor-critic、GAIL、Q-Learning、PPO、Offline RL 等。能夠?qū)⑦@些算法應(yīng)用于自然語言處理任務(wù)中。深刻理解強化學(xué)習(xí)與自然語言處理領(lǐng)域的基本原理，具備訓(xùn)練 RM（Reward Models）、PPO（Proximal Policy Optimization）、DPO（Deep Policy Optimization）等方面的經(jīng)驗。具備從零開始構(gòu)建強化學(xué)習(xí)與自然語言處理訓(xùn)練集的能力，以滿足特定任務(wù)的需求。出色的溝通與協(xié)作能力，具備跨團隊合作的經(jīng)驗，擁有卓越的項目規(guī)劃和執(zhí)行能力。精通大規(guī)模模型的微調(diào)方法，能夠有效應(yīng)用多機并行策略，以實現(xiàn)任務(wù)效率與性能的提升。深入了解學(xué)術(shù)界與行業(yè)內(nèi)最新的研究成果，包括但不限于對 instructGPT、LLaMa 等前沿技術(shù)的熟悉。優(yōu)先考慮在國際頂級會議或期刊（如 ICLR、ICDE、ICML、NeurIPS、AAAI）上發(fā)表過相關(guān)領(lǐng)域論文的候選人。

激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

強化學(xué)習(xí)算法專家

相似職位 更多相似職位

職位描述

相似職位更多相似職位