服務(wù)創(chuàng)造價(jià)值、存在造就未來
本文源自:金融界
金融界2025年6月25日消息,國家知識(shí)產(chǎn)權(quán)局信息顯示,深圳云天勵(lì)飛技術(shù)股份有限公司申請(qǐng)一項(xiàng)名為“獎(jiǎng)勵(lì)模型優(yōu)化方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)”的專利,公開號(hào)CN120197723A,申請(qǐng)日期為2023年12月。
專利摘要顯示,本發(fā)明公開了一種獎(jiǎng)勵(lì)模型優(yōu)化方法、裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì),該方法包括:獲取訓(xùn)練數(shù)據(jù),訓(xùn)練數(shù)據(jù)包括提示詞和訓(xùn)練答復(fù);接收訓(xùn)練數(shù)據(jù)對(duì)應(yīng)的標(biāo)注結(jié)果,基于標(biāo)注結(jié)果,確定每一訓(xùn)練數(shù)據(jù)的第一獎(jiǎng)勵(lì)分?jǐn)?shù);采用原始獎(jiǎng)勵(lì)模型對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行打分標(biāo)注,確定每一訓(xùn)練數(shù)據(jù)的第二獎(jiǎng)勵(lì)分?jǐn)?shù);基于同一提示詞對(duì)應(yīng)的多個(gè)訓(xùn)練數(shù)據(jù)的第一獎(jiǎng)勵(lì)分?jǐn)?shù)和第二獎(jiǎng)勵(lì)分?jǐn)?shù),確定原始獎(jiǎng)勵(lì)模型對(duì)應(yīng)的優(yōu)化函數(shù)值;在優(yōu)化函數(shù)值未滿足收斂條件時(shí),優(yōu)化原始獎(jiǎng)勵(lì)模型的模型參數(shù);在優(yōu)化函數(shù)值滿足收斂條件時(shí),將原始獎(jiǎng)勵(lì)模型作為目標(biāo)獎(jiǎng)勵(lì)模型。該方法能夠使獎(jiǎng)勵(lì)模型的評(píng)估效果較為接近人工標(biāo)注的評(píng)估效果,實(shí)現(xiàn)提升原始獎(jiǎng)勵(lì)模型的評(píng)估性能的目的。
天眼查資料顯示,深圳云天勵(lì)飛技術(shù)股份有限公司,成立于2014年,位于深圳市,是一家以從事軟件和信息技術(shù)服務(wù)業(yè)為主的企業(yè)。企業(yè)注冊(cè)資本35513.372萬人民幣。通過天眼查大數(shù)據(jù)分析,深圳云天勵(lì)飛技術(shù)股份有限公司共對(duì)外投資了31家企業(yè),參與招投標(biāo)項(xiàng)目265次,財(cái)產(chǎn)線索方面有商標(biāo)信息415條,專利信息1785條,此外企業(yè)還擁有行政許可37個(gè)。
24小時(shí)免費(fèi)咨詢
請(qǐng)輸入您的聯(lián)系電話,座機(jī)請(qǐng)加區(qū)號(hào)