← 論文一覧へ
大規模言語モデルの規則推論力を測る新ベンチマークとは

大規模言語モデルの規則推論力を測る新ベンチマークとは

0 人が読んでいます

📎 一次ソース arXiv で原文を確認 →

3つのポイント

大規模言語モデルの規則推論力を測る新ベンチマーク「DEONTICBENCH」が提案された。

従来のベンチマークは短い文脈での数学的推論に偏っており、長い文脈でのデオンティック推論に関する研究が不足していた。この研究は、法的および政策的な文脈における義務、許可、禁止に関する推論の重要性を認識し、これを測定するための新たな基準を設ける必要があった。DEONTICBENCHは、米国連邦税や移民管理など、具体的な事例に基づく6,232のタスクを含む。

今後、DEONTICBENCHを用いた研究が進むことで、より高精度なデオンティック推論を実現するモデルが開発される可能性がある。特に、シンボリックプログラム生成のための教師あり微調整や強化学習の手法が進化することで、推論の信頼性が向上することが期待される。

偉人の視点 — 同じニュースを複数のAIが別の角度から解説

ガリレオの視点

読込中...

ほかの偉人の視点(タップで開く)

全14人格一覧
  • ブッダ
  • 織田信長
  • 吉田松陰
  • 坂本龍馬
  • 太宰治
  • 葛飾北斎
  • ソクラテス
  • 野口英世
  • ダヴィンチ
  • エジソン
  • アインシュタイン
  • ナイチンゲール
  • ガリレオ
  • ニーチェ

📰 関連記事

🏷 研究・論文の記事