激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

企業(yè)及高校合作:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2
當(dāng)前位置:首頁 > 全部職位 > 職位詳情
最爆 https://public.static.hxsd.com/resources/zhaopin/20231128/bao116552dsfsd9898.png

強化學(xué)習(xí)算法專家

40-60K·14薪

代招公司:好未來 北京 3-5年 碩士

火星時代教育:中國數(shù)字藝術(shù)教育高端品牌
...
餐補 全勤獎 節(jié)日福利 定期體檢 商業(yè)保險 購房福利 補充醫(yī)療保險 帶薪年假 不定期培訓(xùn) 五險一金 年終獎
餐補 全勤獎 節(jié)日福利 定期體檢 商業(yè)保險 購房福利 補充醫(yī)療保險 帶薪年假 不定期培訓(xùn) 五險一金 年終獎

職位描述

  • 強化學(xué)習(xí)
  • 自然語言處理算法
  • C/C++
崗位職責(zé): 深入研究、訓(xùn)練和應(yīng)用大規(guī)模預(yù)訓(xùn)練模型(LLM),包括但不限于多語言、多模態(tài)、訓(xùn)練任務(wù)的優(yōu)化、下游任務(wù)的遷移、知識融合更新和模型性能的提升等。在此過程中,著重強調(diào)與強化學(xué)習(xí)相關(guān)的應(yīng)用。 利用基于強化學(xué)習(xí)的 PPO 算法進行微調(diào)自然語言處理預(yù)訓(xùn)練模型,以實現(xiàn)各類任務(wù)的對齊與性能提升。 積極參與公司領(lǐng)域特定的 GPT 模型的強化學(xué)習(xí)與自然語言處理模塊的研發(fā),為其增添RLHF(Reinforcement Learning with Human Feedback)元素。崗位要求: 碩士及以上學(xué)歷,專業(yè)背景可包括自動化、計算機科學(xué)、機械工程等相關(guān)領(lǐng)域。 精通強化學(xué)習(xí)領(lǐng)域的多種算法,包括但不限于 Actor-critic、GAIL、Q-Learning、PPO、Offline RL 等。能夠?qū)⑦@些算法應(yīng)用于自然語言處理任務(wù)中。 深刻理解強化學(xué)習(xí)與自然語言處理領(lǐng)域的基本原理,具備訓(xùn)練 RM(Reward Models)、PPO(Proximal Policy Optimization)、DPO(Deep Policy Optimization)等方面的經(jīng)驗。 具備從零開始構(gòu)建強化學(xué)習(xí)與自然語言處理訓(xùn)練集的能力,以滿足特定任務(wù)的需求。 出色的溝通與協(xié)作能力,具備跨團隊合作的經(jīng)驗,擁有卓越的項目規(guī)劃和執(zhí)行能力。 精通大規(guī)模模型的微調(diào)方法,能夠有效應(yīng)用多機并行策略,以實現(xiàn)任務(wù)效率與性能的提升。 深入了解學(xué)術(shù)界與行業(yè)內(nèi)最新的研究成果,包括但不限于對 instructGPT、LLaMa 等前沿技術(shù)的熟悉。 優(yōu)先考慮在國際頂級會議或期刊(如 ICLR、ICDE、ICML、NeurIPS、AAAI)上發(fā)表過相關(guān)領(lǐng)域論文的候選人。
×

同學(xué)您好!

您已成功報名0元試學(xué)活動,老師會在第一時間與您取得聯(lián)系,請保持電話暢通!
確定