omuronの備忘録

個人的な備忘録

「ついに出た！OpenAIの最新モデル「o1」って何がすごいの？みんなで勉強しよう」 #o1_osarai 受講メモ

勉強会みのるんのゲリラ勉強会 LLM

ついに出た！OpenAIの最新モデル「o1」って何がすごいの？みんなで勉強しよう #o1_osarai

minorun365.connpass.com

o1 何がすごいの？という勉強会です。

セッション

OpenAI o1って何がすごいの？入門解説

みのるんさん

speakerdeck.com

GPT
- GPT-4：賢く
- GPT-4Turbo：安く早く
- GPT-4o：さらに高速&音声対応
o1 シリーズ
- 応答する前にじっくり考えることができる
- 物理化学生物、数学、コーディング得意
  - 理系よりのタスクが得意
- ジェイルブレイク耐性
- o1miniなら1/5の料金
- 強化学習で思考の連鎖がレベルアップしている
  - 思考の連鎖：ステップバイステップで考えさせる
  - AIエージェント的な特性が組み込まれている

中学受験数学を3門解かせると、o1は全問正解で、GPT-4o は1問だったと。
このあたりが理系強くて、思考の連鎖が自動でできるからあたりの強さ。
「ステップバイステップで」と指示しなくてもいいのは楽ですね。

LT① o1のAPIで実験してみたが、制限きつすぎて辛かった件

上野さん

処理フロー
- ルールベースでLLM処理可能か判定
- LLMで会話分類しLLM処理可能か判定
- LLMで次のフェーズ移るか判定
- LLMでメッセージ作成
- LLMでメッセージを評価し、水準を下回ったら再作成、クリアしたらサジェスト
o1 API はβ版
- systemメッセージがサポートされてない
- レスポンスフォーマットがサポートされてない（JSONで返せないときがある）

処理フローが参考になりました。
Prompt Flows でも似たようなことできるけど、プロンプト5個制限がつらい。

LT② o1モデルのプロンプトエンジニアリングって？

和田さん

GPT-4 地頭の向上
- GPT-4o マルチモーダル、目や耳獲得
- GPT-4o1 じっくり考える論理的思考の獲得
プロンプトのコツ
- 余計なことはせずに必要な情報だけわかりやすくでいい
- 「ステップバイステップで」と書かない
- アウトプットが満たすべき条件は書く

もう賢くなったから「素人は黙っとけ」って感じだそうです。

LT③ OpenAI o1 System Card から見る安全性と評価

totsukaさん

System Card
- 安全対策について書かれたもの
安全性評価
- 禁止コンテンツ：有害なコンテンツに応答しない（爆弾作成とか）
- ジェイルブレイク：堅牢性の向上
- ハルシネーション：正確性の向上
- 公平性とバイアス：ステレオタイプな選択肢が低い、わからないことは答えない
CoTの欺瞞
- それっぽURLを作ったりしないか？
外部レッドチーム
- 脆弱性のテスト評価など

LLMのモデルってこんな評価してるのね。

LT④ 新モデルOpenAI o1、実際に試してみたらこうなった

岸田さん

東京のマンホールの数をフェルミ定数を使って数えて
- o1のほうがいい回答
- 思考の概要が見れるのが面白い
雑なプロンプトでゲーム作らせる
- Reactで指示したらディレクトリ構成やコンポーネントまで考えてくれる

PoC作るのがさらに楽になりそうです。