米Metaや米HuggingFaceなどに所属する研究者らは、難しいタスクではなく、人間にとって簡単なタスクを達成する大規模言語モデル(LLM)を評価するためのベンチマークを発表した。…
このサイトの記事を見る
人だと正解率92%なのに、GPT-4だと15%になる新型テスト集「GAIA」 米Metaなどが開発
その他
その他米Metaや米HuggingFaceなどに所属する研究者らは、難しいタスクではなく、人間にとって簡単なタスクを達成する大規模言語モデル(LLM)を評価するためのベンチマークを発表した。…
このサイトの記事を見る