ついに出た!OpenAIの最新モデル「o1」って何がすごいの?みんなで勉強しよう #o1_osarai
o1 何がすごいの?という勉強会です。
セッション
OpenAI o1って何がすごいの? 入門解説
みのるんさん
- GPT
- GPT-4:賢く
- GPT-4Turbo:安く早く
- GPT-4o:さらに高速&音声対応
- o1 シリーズ
中学受験数学を3門解かせると、o1は全問正解で、GPT-4o は1問だったと。
このあたりが理系強くて、思考の連鎖が自動でできるからあたりの強さ。
「ステップバイステップで」と指示しなくてもいいのは楽ですね。
LT① o1のAPIで実験してみたが、制限きつすぎて辛かった件
上野さん
- 処理フロー
- ルールベースでLLM処理可能か判定
- LLMで会話分類しLLM処理可能か判定
- LLMで次のフェーズ移るか判定
- LLMでメッセージ作成
- LLMでメッセージを評価し、水準を下回ったら再作成、クリアしたらサジェスト
- o1 API はβ版
- systemメッセージがサポートされてない
- レスポンスフォーマットがサポートされてない(JSONで返せないときがある)
処理フローが参考になりました。
Prompt Flows でも似たようなことできるけど、プロンプト5個制限がつらい。
LT② o1モデルのプロンプトエンジニアリングって?
和田さん
- GPT-4 地頭の向上
- GPT-4o マルチモーダル、目や耳獲得
- GPT-4o1 じっくり考える論理的思考の獲得
- プロンプトのコツ
- 余計なことはせずに必要な情報だけわかりやすくでいい
- 「ステップバイステップで」と書かない
- アウトプットが満たすべき条件は書く
もう賢くなったから「素人は黙っとけ」って感じだそうです。
LT③ OpenAI o1 System Card から見る安全性と評価
totsukaさん
- System Card
- 安全対策について書かれたもの
- 安全性評価
- 禁止コンテンツ:有害なコンテンツに応答しない(爆弾作成とか)
- ジェイルブレイク:堅牢性の向上
- ハルシネーション:正確性の向上
- 公平性とバイアス:ステレオタイプな選択肢が低い、わからないことは答えない
- CoTの欺瞞
- それっぽURLを作ったりしないか?
- 外部レッドチーム
- 脆弱性のテスト評価など
LLMのモデルってこんな評価してるのね。
LT④ 新モデルOpenAI o1、実際に試してみたらこうなった
岸田さん
- 東京のマンホールの数をフェルミ定数を使って数えて
- o1のほうがいい回答
- 思考の概要が見れるのが面白い
- 雑なプロンプトでゲーム作らせる
PoC作るのがさらに楽になりそうです。