1. AI Engineering Now
  2. #1: Chatbot Arenaのデータを..
2024-09-08 32:59

#1: Chatbot Arenaのデータを使ってドメイン独自の評価データセットを作る

Chatbot Arenaのデータを使ってドメイン独自の評価データセットを作るという論文、Judging LLM-as-a-Judge with MT-Bench and Chatbot Arenaを題材に話しました。


ポッドキャストの書き起こしサービス「LISTEN」はこちら

Shownotes:

Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference

Chat with Open Large Language Models

From Live Data to High-Quality Benchmarks: The Arena-Hard Pipeline | LMSYS Org

Benchmarks 201: Why Leaderboards > Arenas >> LLM-as-Judge

https://x.com/karpathy/status/1737544497016578453

https://github.com/lm-sys/arena-hard-auto/tree/main/BenchBuilder


出演者:

seya(@sekikazu01)

kagaya(@ry0_kaga)

Summary

Chatbot Arenaのデータを用いて、ドメイン固有の評価データセット作成の重要性について述べられています。そこでは、評価方法としてのペアワイズ評価やその信頼性についても触れられ、近年の評価者の偏りがもたらす課題について考察されています。また、Chatbot Arenaのデータを用いたドメイン固有の評価データセット作成の過程が紹介されており、特にベンチビルダーを活用したトピッククラスタリングやプロンプトの品質評価が重要な役割を果たしています。さらに、AIや専門家のアノテーションプラットフォームに関する新しいアイデアも提示されています。

Chatbot Arenaについての紹介
今日は、Chatbot Arenaのデータを使って、 ドメイン独自の評価データセットを作るという感じの論文。
From Cloud-Sourced Data to High-Quality Benchmarks, Arena Hard and Bench Data Pipelineという論文があるので、
それについて話していこうかなと思います。
お願いします。
お願いします。
香谷さんって、そもそもChatbot Arenaとかは見てはいると思うんですけど、知ってましたか?
そうですね、知ってます。知ってますし、ちょこちょこ見たりはしたりとか、
あの辺の関連する論文みたいなのとか、流れてきたり見たりとかはしますけど、
定期的にモデルの評価をちゃんと見てとか、そういう使い方はあんましてない。
そうですね、正直。
まあそうですよね。たぶんXとかで、OpenAIとかGeminiが、
Chatbot Arenaのスコア、こんだけ高かったで、みたいなのをたまに見るな、みたいな感じですけどね。
たまに、特に最近とかは結構そういう記事とかのランキングの元ネタとしても、
結構Chatbot Arenaを使われる方がなくはないので、
昔ほど自分で見に行くっていうよりかは、自動的に変化はこんな感じの変化あったんだとか、
X見てると知るくらいの付き合い方をしてますね。
そうですね、正直私も全く同じ感覚なんですけど、
僕が見た最近Chatbot Arenaのニュースはですね、使い心地基準で判断みたいな見出しのニュースですね。
Chatbot Arenaの評価ってことですね。
違ってはない。
そうですね。
そんなChatbot Arenaなんですが、今回いろんな人が多分悩んでるであろう評価データセットを作るっていうところに対して、
見出しだけ読んだ感じはなんか良さそうに見えた論文があったので、ちょっと紹介していこうかなという感じで。
お願いします。
Pairwise評価の仕組み
そもそもですね、香谷さんはご存じかもしれないんですが、Chatbot Arenaって何っていう話から始めようかなと思うんですが、
Chatbot Arena自体は多分去年の2023年の4月に立ち上げ、リリースされた大規模なPairwise評価プラットフォームというもので、
どういうPairwise評価プラットフォームって何やねんっていう話なんですけれども、
そもそもPairwise評価っていうのが我々がよく見るスコア、
MMLUがうんたらかのスコアが何点でしたみたいなものっていうのは絶対評価なんですけれども、
こういうタスクが解けたら何点みたいな、そういう絶対値のスコアでつけられてるんですけど、
Pairwise評価は、例えばOpenAIのモデルとGeminiのモデルの出力を比較してどっちが良いかっていう相対スコアですね。
Pairwiseだからあれですよね、すごい単純に表現するとA or Bがあって、お前はどっちが好みなんだっていう話ですよね、究極。
そうですね。このPairwise評価のいいところっていうのが、
人間も、あとレレレマーザージャッジでも基本Pairwise評価の方が精度が高くなるって言われていて、
そうですね。その絶対値のスコアリングをつけるときに何を基準にするのかっていうのを定めるのも割と難しかったりするんですけど、
どっちがいいかみたいなものは割と自信を持って答えられるっていうところで、
Pairwiseの方が信頼性が高いよみたいなものは割とちょくちょく言われているところですね。
で、チャットボタリーナの場合は、もう本当今まででこの1年半ぐらいか、
24万件以上のPairwise評価の結果が集まってきていて、
そのバトル、確かバトルって呼んでるんですけど、その企画をする結果の収穫を、
何かのレーティングシステムみたいなものの計算の仕方でスコアを出してランキング付けしているっていうのがチャットボタリーナっていう感じですね。
そういう人間が何となくって言ったらよくないな。
評価の課題とバックグラウンドの偏り
まあでも何となくどっちがいいかっていうのが評価の集積で、
なんかそんなにいいんですかねみたいな話はあったりはするんですけど、
あったりはするっていうか、そういう風に感じる方もいらっしゃるかもしれないんですけど、
まあ割とその結構著名な虎の居岡で狸みたいな感じにはなるんですけど、
アンドレ・カルパシーさんみたいなオープンAIに昔いた有名な方がチャットボタリーナを信頼できるみたいなことを言ってたりとか、
あとLLMベンダーの各社がオープンAIとかがGPT-4を出す前にちょっとコソッと忍ばせて、
スコアが出る状態にしておいて、GPT-4が出た後にこれ実はGPT-4でしたみたいな、
なんか第三者評価機関みたいな感じで使って、最近は使っていたりとかいう感じで、
結構その課題もあるはあるんですけど、
人間の好みを示す評価としては結構信頼ができるよみたいな感じでは扱われているっていうところですね。
ちなみに香谷さんってなんかこのペアワイズ評価ってしたことあります?
チャットボタリーナのペアワイズ評価ってなんかしたことってあります?
チャットボタリーナの普通にバトルに参加したかったとですよね。
本当になんか最初の頃やった気がしますけどね、最初の頃は。
最近は全然やってないです。
本当に最初の存在を知ってやってみたかった頃にはやった気はしますけど、
最近は全然正直見てないというか、リーダーボードみたいなやつとかぐらいしか見てないので。
そうですよね。
なんか自分もこれ使い続けてる人がどれくらいいるんだろうっていうか、
どういうモチベーションでやってるんだろうっていうのはちょっと気になるので。
そうですね。
僕があんまりよくわかってないだけで、こう使うと便利とか、
一般、例えば評価のランキングを見るみたいな上でもあるのかもしれないですけど、
定期的に評価見たりとか、評価見たりはするけど参加する方は全然やらないですね、正直。
日本人でどれくらいの人が参加してるのかはめちゃくちゃ気になりますね。
ジャパニーズとかもありますけど、全然見てないです。
見たらわかるのかもしれないけど。
そうですね、ちょっとこれ間違った情報を伝える可能性があるが、
でもほんと数パー、日本語のクエリは3、4パーとか、それでも意外といるなって感覚でしたけど。
24万件の3パーぐらい。
確か。
これ後でファクトチェックしながら。
えらい。
ハンドレイさん、読み方わかってないけど。
僕もよくスポールをしてるんでよく見てますけど、
シャットボットアリーナと、あともう一個信頼するのはたぶんRedditですよね、これ。
コメントって言ってたら本当に極端な人の、割とアーリーアダプターっぽい人の意見だけを信じるみたいな感じの
主張なんだろうなと思いながら、改めてツイート見てて思いました。
そうですね。
一応このペアウェイズ評価というか、
ペアウェイズ評価というよりは、
シャットボットアリーナの評価観点のデメリットみたいなものも一応指摘はされていて、
わかりやすいのが、ちょっとユーザーの好みに寄りすぎているという側面はあって、
結構難しい質問とか、ドメイン知識が求められるような質問をユーザーがしたときに、
その内容をクエディをしたユーザーが正しく評価できるという話があったりして、
ちくいちファクトチェックをするのもだいぶ大変なので、
フォーマットがきれいとか、簡潔に答えているであるとか、
言い方がわかりやすいとか、
その人間がいい答えだなって、その内容自体のチェックというよりは、
人間の好みに合った内容になっているか、みたいなところが弱点だよねみたいな話があったりとか、
あとは、基本的にこの会話はマルチターンではない、シングルターンで終わることがほぼ、
平均ターン数が1.3みたいな感じらしいんですけど、
だいたい1ターンで終わるので、長期の会話でどんなパフォーマンスを示すのか、みたいなところに関しては、
そんなにスコアは実態を表していないのかなというところがあったり、
あとは、その評価者のバックグラウンドにすごい偏りがある、
さっき日本語話者どれくらいいるんだろう、みたいな話があったりしたんですけど、
やっぱり現状を評価してくれている人の大部分が、
USに住んでいる白人男性という言及が、チャットボットアリーナ自体の論文にもあったりして、
あとこれ、後ほど触れるんですけど、
さらに、その中でも多分プログラミング好きな人とか、
LLM好きな人とか、ちょっとそっちにも偏っているだろうなというのがあったりするので、
その辺の回答者のダイバーシティがちょっと偏っているというのは、課題としてはあったりしますねという感じですね。
フォーマット綺麗とかそれっぽさとか、
それこそ最近、オライリーのジップ・ヒューエンさんのAIエンジニアリング本、
我々ゆるく読んでますけど、そこでも正直この話ありましたよね。
こういう人に評価させると、Aの方を選ぶが、私はBが好みなんです、みたいなとこだったりとか、
この辺、よくも悪くも、プレファレンスに寄りすぎているっていうのは、それはそうなるだろうなと思いますし、
それこそ一手でアノテーターとか集めてやるときも、同じ問題は起こるんでしょうけど、
チャットボットアリーナの方が明らかにクラウドを使うみたいなノリなので、
コントロールは確実にしづらいだろうなとは思いますね。
あとはバックグラウンドは本当そうだろうなと思いますね。
チャットボットアリーナ知ってて、チャットボットアリーナ採点に参加する時点でだいぶLLM好きなので、
だいぶ偏っているとは思う。
その辺とか、あえて属性バラすみたいなこととかやってるんだったら面白そうだったなって思いますけど、
さすがにやってない気がするんで、
確かにおっしゃる通り、USに住んでる白人男性の方が93%ぐらいなんじゃないかなって気がします。適当ですけど。
確かに実際そんぐらいだった気がする。
でもこれそうですね、今完全に確かこのチャットボットアリーナを運営してるところもワークウェイのボランティアでやってるんですよね。
多分エイリーではない。
チャットボットアリーナ自体ってやつですよね、このプロジェクトの。
そうですそうです。
なんか寄付でやってるって認識ですね。なんか見た気がする。寄付だけ受け付けてるみたいな。
そうですね。結構ガチめにダイバーシティを持ったデータの人たちを集めるのを担保するってなるとそれなりにお金がかかりそうだからちょっとむずいですよね。
そうですね。そこまでやってくれと祈るのはよく分かる。
本当にめちゃくちゃ使われてない。金銭的にはOSS自体では報われてないみたいな感じがあるからちょっと申し訳ないですね。
そこまで求めるならちゃんとみんなでお金出していこうっていう感じはあるな。
そうですね。フィキピータじゃないけど寄付はしましょうってやつですね。
ベンチビルダーの概要
ちょっともうすでにチャットボットアリーナでひとしきり盛り上がったが、今回紹介した異論文のベンチビルダーっていうものについて話していこうかなと思うんですけど。
ベンチビルダー何かっていうと、まずチャットボットアリーナが多分5、6月ぐらいにアリーナハードっていう難しめのベンチマークを作ったっていうそのぐらいの時期に作りました。
そのベンチマークを作った自動化パイプラインみたいなものが今回紹介するベンチビルダーっていう感じですね。
こやつが何かというと、まずチャットボットアリーナってめちゃくちゃいろんな人がモデルの評価のためにプロンプト送ってくれているので、
そのたくさんあるクエリのデータを活用してベンチマークデータセット作っちゃおうぜというのが今回紹介するベンチビルダーが出ることという感じですね。
ざっくりこのベンチビルダーがどうやってそのベンチマーク作っているかっていうところをバッと紹介していくとですね、
まず最初にトピッククラスタリングといってそのまんまですけど、チャットボットアリーナが集めたプロンプトのデータたちをクラスタリング、そのトピックに応じてクラスタリングを作ってみますと。
トピックって呼んでいるものが具体的にどういうものかっていうと、これさっき言ったようにちょっと偏ってて、上位がクラスタの大きさですね。
上位がPythonでのゲーム開発とか、あとはオートエンコーダーの作り方とか、やっぱり技術者に偏っているんだろうなっていうのはすごい感じがします。
ゲーム開発Python、ゲーム開発Pythonって一番。
そうですね。一応旅行プランの立て方とか、ギフトの選び方とかそういうかわいいトピックも、かわいいというかジェネラルなトピックも一応ちゃんと混ざっているんですけど、そんな感じのトピックをいろいろクラスタリングしますと。
その後にプロンプトの品質評価みたいなものをしていて、これが何かっていうと具体的であるとかドミニチシキを問うようなプロンプトであるかとか、
ロジカルシンキングを試すようなプロンプトであるかとかを、みたいな品質項目をいくつかこのChatbot Arenaを作っている方々が定義して、
ちなみに何でこのプロンプトの品質評価が必要かという話なんですけど、
例えば結構このChatbot Arenaって雑なメッセージも含まれているというか、
そういう挨拶だぜみたいな、そういう雑なメッセージも含まれていたりするので、ちゃんと性能評価をできそうだなみたいな、
そういうプロンプトを絞るためにこういう品質評価みたいなものをしましたということみたいですね。
何かここはLLE MotherJet使って、ちょっとどのモデルを使っていたか忘れてしまったが、
何かそれでプロンプトごとに、各プロンプトにスコアを割り当てて品質評価をしていると。
その後に今回Chatbot Arenaの人たちはモデル、ちょっと話が前後しちゃうんですけど、
今まで既にやったベンチマークだと、ちょっと最近のモデルたちが賢くなりすぎて、
差異が見えづらくなってきたっていう背景があって、
ちょっと難しめの質問をいっぱい集めて、差異が見えやすくするようにしようというのが背景としてあったので、
なので何かさっきのプロンプトの品質評価でスコアが高いものが集まっているクラスターっていうのを選んで、
その平均スコアが高いクラスターたちからプロンプトをサンプリングしてデータセットを作っていったという感じですね。
そうやってデータセットを作って、それで評価を回すためのデータセットができましたと。
じゃあ具体的にどうやって評価を回していくかっていうところなんですけれども、
ここも最初、評価基準どうやって作っていくんだろうなって思ってたんですけど、
ここもちょっと面白かったのが、ここの自動化もペアワイズ評価でやってて、
ペアワイズ評価をするLLMataJudgeみたいなものを用いているってことですね。
アリーナハードって作られたベンチマークデータセットに対して、
そのデータセットに対していろんなモデルでそのプロンプトを回していくと。
そのモデルたちで出力した結果たちを比べていくのも、
人間じゃなくてLLMMataJudgeでペアワイズ評価をしまくる。
だからそのチャットボットアリーナが人間でやっていることを
LLMMataJudgeで再現しているみたいなことをやっているっていうことですね。
結果としては既存のベンチマークよりもモデル間の性能差っていうのが割と見えやすく、
データセットの活用
要はスコアの差が見えやすくなったっていうことですね。
あとチャットボットアリーナのランキングとの相関も89.1%の一致率というところで、
割と人間の好みと合っているんじゃないかみたいなぐらいの程度ができましたっていう感じですね。
っていうのがこちらのベンチビルダーというものでした。
というところなんですが。
最初チャットボットアリーナに送られたプロンプト価値が混ざって、
それをトピックごととかにプロンプトクラスタリングします。
プロンプトの品質を評価する指標みたいなやつとかを事前に定義してあって、
それもとに各プロンプトのスコアみたいなのを出して、
そこをトピックとプロンプトのスコアみたいなのを見て、
品質のスコアが高いクラスターを選んで、
そこからプロンプトとってきてベンチマーク作ってみたいなところの評価みたいなところも、
LMR The Judge、エアオバイズ評価みたいなのをやって、
スコアベースとかでやって作ってるってことですよね。
それでやってますね。
これって最近チャット終わったりいないのに、
ハードプロンプトってカテゴリー増えたじゃないですか。
最近ちょっと前か。
それってこれ関係あるんですか。
ハードと0.1で作ったやつとかって。
確か、これは100%の自信があるわけではないんですが、
ハードとカテゴライズされたプロンプトたちに対するものだけで計算されたスコアリングは、
確かこのハードプロンプトだった気がするので、
おそらくどうなんでしょうね。
そこの関係までは調べられてないですけど、
ここでプロンプト品質評価やってるんで、
ここのスコアが高いものだけとか、
そういうのはやってるのもありえそうですよね。
そうですね。そのまま使ってるかともかく、
関連とか知識の転用的なことをやってるような気はしますね。
時間略的に多分ベンチビルダーの方が前だとは思うので。
そうですね。このベンチビルダー読んで、
最初、これで俺のプロダクト独自の評価データセットもパッと作れちゃうのかなっていうのを思ってたんですけど、
そうですね。
プロダクトによってはあり得なくはないぐらいのところはあると思うんですけれども、
そうですね。正直、クエリのダイバーシティがないっていうところが再三話してはいるんですけど、
やっぱりプログラミングに偏ってたりとか、
日本語のクエリそもそもそんなにないみたいなところで、
パイプラインは参考になるかもしれないんですけど、
そんな簡単には使えなさそうだなっていうところと、
あと、実際そうかわかんないんですけど、
パッと調べた感じ、そもそも肝心のデータセットは公開されてないという、
そもそもの前提の話がありまして、
そういった点でちょっと使えなさそうだなというところがありましたね。
これ自分たちで使えるかって言われると、どうなの?確かに。
同じようなトピッククラスタリングで、
各々のプロダクトだったりとか、
ドメイン的に欲しい何かのトピックとかクラスターを、
自分たちで選んできてやるとかだったら、
一から集めるよりは楽なケースはあるのか?どうだろうな。
確かに我々とかで言うと、
多分今プロダクト的には結構管理会計とか、
そっちの領域のプロダクトとかやってるので、
何だろう、ちゃんと何千万円みたいな感じの言い方になってる方がいいよねとか、
そういうのとかがあるんだったら確かに使いたいかもしれないけど、
さすがにない気がしますね。
そうですね。やっぱ結局そういうデータを作るであったりとか、
集めるであったりとか、
そういうところも大変そうだなっていう感じは、
結論にはなりそうだな。
そうですね。
でもなんかちょうど今日この回とか、
ルートLAMって分かります?
多分タスクとかプロンプと見て、
最適なLAM、コストのバランスとか見て、
ルーティングするみたいなやつ、
オープンソースで出てるやつ。
オープンソースじゃなくてサービスになってるやつとかも、
昔試して遊んだ記憶はあるんですけど、
ちょうどこの多分チャットぼったりの運営してるところとかが、
ルートLAMをオープンソースとかで出してて、
これってなんかもうちょっとルーター複雑なことやってそうな、
行列分解モデルとか書いてて、
結構いろいろやってそうなんですが、
なんかデータ的にはチャットぼったりのデータで訓練してるって書いてたので、
なんかこういうベンチマークとか1個作ると、
こういうふうに横転できるんだなみたいなのを思いながら見てました。
そうですね。
なんかちょっと話繋がってるかわかんないけど、
去年の6月段階、
6月ぐらいに出た最初のチャットぼったりなの論文で、
なんかすごい綺麗だなって思ったのが、
このモデル、こういうルートLAMもそうだし、
最初は名前なんだっけな、
ちょっと名前忘れちゃったんですけど、
このチャットぼったりなで集めたクエリとかを元に、
ファインチューニングとかを行って、
ちょっとモデルの精度を上げてみますみたいな話があったりして、
なんていうかすごい賢いな、
このデータを集めるプラットフォームを作って、
データをいろんなところに展開していくみたいな。
チャットぼったりなのデータは商用利用OK。
ライセンスまで書くんですけど、
それは使うときに考えるということで。
そうですね。
データセフトとか難しいです。
なんかチャットぼったりの話から全然ずれるんですけど、
評価基準の言語化
最近少しだけいわゆる小説とかそういう系の、
面白いコンテンツを作るバイエレレみたいなやつとか、
ちょっと手動かしてるんですけど、
こういうところの評価基準作ろうってなると、
面白さを表現する評価基準作らなきゃいけないじゃないですか。
って考えると、
それを言語化するの最初つらいので、
こういうチャットぼったりな的な、
人にどっちが面白いか選択させるみたいなのの方が
ハマるんだろうなみたいな。
そこからもうちょっと探索的に評価基準とかに
頑張って仕上げていくみたいなのとかが、
現実界なんだろうなみたいなところを思っていて、
今回の話とかも聞いてまたそれを思い出しました。
そうですね。
そこの評価基準みたいなものを頑張って言語化しても、
どうしてもちょっとずれた感じか、
その面白さをちゃんと捉えられてないものになりそうな雰囲気はあるので、
直感的にはこういうPairwise評価の集積みたいな方が
しっくりきそうなイメージは起きますよね。
そうですね。
でも多分きっと同じデメリットを抱えちゃうので、
結局その辺とかでは苦労するんだろうなとは思いますね。
逆にあれなんですかね、
指したいターゲットみたいな人たちがいるとして、
その人たちの好みに偏っていいというか、
むしろ最適化されていいというなら、
そういう人たちアノテーターに宿ったら
結構いいPairwise評価の集積になるのかな。
でも一般的にアノテーターにとってやってるのって、
要するにそういうことな気がするので、
多分結局それがあるんじゃないですか、
人集めるのが大変だったりとか、
比較的専門性ある人とかだと母数がいないとか時給が高いとか、
あととはいえどういう基準で評価してほしいのか、
推し入るのが大変みたいな話とかに、
結局また戻ってくるから、
多分AI the Judge的なことをやらせたくなるっていう無限ループかもしれない。
専門家アノテーションのアイデア
銀の弾丸が登場する未来があんまり見えないな。
そうっすね、どうなんだろうな。
エキスパートにリサーチとかヒアリングできるサービスとかあるじゃないですか、
VisaskとかUniとか、
あれじゃないですけど、
僕らでいうとちょっと職種としては変わってるというか、
少し人数、比較的一般社会でいうと少なめなので、
そういう人たちに決め打ちでチャットボットアリーナ的な
フェアワイズ評価してくれるプラットフォームとかあったら
使うかもなって気がしてきました。
Visaskのチャットボットアリーナ版みたいなやつ。
これは企業チャンスが出てきましたね。
これいけるのかな、これいけるか。
僕が話してて、人を集めるみたいなところと
そこのフェアワイズある程度、
ある程度良さげに作って欲しいけど
1から作るほどまで言えば、
ナレッジがないのか、コース避けないのかみたいな時とかに
募集条件とか要項とかやって回答してもらって、
要件的にこの人だったらOKそうっていうのを見たら
採用されてお金支払われてみたいなやつとかだったら
っていうエキスパートアノテーションプラットフォームという
マッチングプラットフォームみたいなものとかは
っていうのを今話し聞いてて一瞬思いました。
どうですか?面白い?これやったら使えますか?
でも割と使いたくなりそうな予感もするな。
いや、なんかしたくなる気がしますね。
なんかどれ?どうだろうな。
なんか弊社も、っていうと
なんかキャラ物のAIとかを作っていたりするんですけれども
なんかそれの似てる似てないみたいな
キャラのファンの人たちが似てる似てないの判定みたいなもの
っていうんですかね。
その素人である、そのキャラを最近知った社内の人間が
漫画であるとか記事であるとか
そういうものを読み込んで作っただけだから
ちょっとどうしても弱くなるというか
やっぱファンの人たちからのリアルな評価っていうのが
あったほうがいいよなっていうのは感じるので
なんか我々が作ったキャラAIみたいなものがいるとして
ひたすら、そこモデルの評価ではないか
まあでもなんかこれペアワイズ評価と離れていってるな
まあでもなんかエピソード評価してくれる
なんかそういう条件に合致する人たちがパッと集まって
デートしまくってくれるみたいなのは嬉しいですよね。
今ってそういう人って集めようとすると
その社内とか知り合い経営とかで頑張ってるんですか
それともそのSNSでスカートするとかまでやってる?
それで言うと今特に打ち手を受けていないっていうのが
正直なところなんですけれども
そうですね思いつくのは
なんかSNSの募集とかになるのかな
そうですよね
これ系のモデル開発の経験がある人に相談した時に
なんかクラウドソーシングのサイトとか使うのがいいんですかね
みたいなのを聞いたんですけど
なんか最近はみんなそういう仕事をLLMにさせてきて
評価の意味がなくなるから
なんかもうちょっと信頼できる筋から集めた方がいいですよ
なるほどね
LLMがそんなところで悪さしてる
その辺とかもこのプラットフォームだとあるですね
LLMが書いたのか人間が書いたのかを判定してくれたら
その辺の防止になるっていうと
使う意味はあるかもしれないですね
確かにここの信頼性があるっていうのはいいところですね
確かにクラウドソーシングせっかく頼んでも
LLMが生成した回答を返してくるっていうのは面白いですね
何やってるかよく分からなくなる
そうですね
きっとLLMより高い単価を払って
LLMの回答を返してくる
なるほどな
それは確かに面白い
この辺さっきの面白さの話戻しちゃうけど
どうやってもなかなかスコアとか
もうちょい定量的なやつに落としづらいみたいなやつとかは
チャットばったりとかこういうペアワイズ的な評価とか
そういうデータセット評価基準みたいなのを
ためる仕組みとかを作った方が早いんだろうなっていう気はしますね
なんかデータセットを合成データで作ろうとしても
そこの面白さは面白くないを表現できる
そういう合成データ作れるんだったら
LLM The Judgeもできそうなので
最近その辺ちょっとやり始めて悩んでるので
まだ相談させてください
今回はこんな感じですかね
こんな感じですかね
はい
締めの言葉を伺いたかった
本日はありがとうございました
はい本日はありがとうございました
じゃあまた
32:59

Comments

Scroll