omuronの備忘録

個人的な備忘録

「ついに出た!OpenAIの最新モデル「o1」って何がすごいの?みんなで勉強しよう」 #o1_osarai 受講メモ

ついに出た!OpenAIの最新モデル「o1」って何がすごいの?みんなで勉強しよう #o1_osarai

minorun365.connpass.com

o1 何がすごいの?という勉強会です。

セッション

OpenAI o1って何がすごいの? 入門解説

みのるんさん

speakerdeck.com

  • GPT
    • GPT-4:賢く
    • GPT-4Turbo:安く早く
    • GPT-4o:さらに高速&音声対応
  • o1 シリーズ
    • 応答する前にじっくり考えることができる
    • 物理化学生物、数学、コーディング得意
      • 理系よりのタスクが得意
    • ジェイルブレイク耐性
    • o1miniなら1/5の料金
    • 強化学習で思考の連鎖がレベルアップしている
      • 思考の連鎖:ステップバイステップで考えさせる
      • AIエージェント的な特性が組み込まれている

中学受験数学を3門解かせると、o1は全問正解で、GPT-4o は1問だったと。
このあたりが理系強くて、思考の連鎖が自動でできるからあたりの強さ。
「ステップバイステップで」と指示しなくてもいいのは楽ですね。

LT① o1のAPIで実験してみたが、制限きつすぎて辛かった件

上野さん

  • 処理フロー
    • ルールベースでLLM処理可能か判定
    • LLMで会話分類しLLM処理可能か判定
    • LLMで次のフェーズ移るか判定
    • LLMでメッセージ作成
    • LLMでメッセージを評価し、水準を下回ったら再作成、クリアしたらサジェスト
  • o1 API はβ版
    • systemメッセージがサポートされてない
    • レスポンスフォーマットがサポートされてない(JSONで返せないときがある)

処理フローが参考になりました。
Prompt Flows でも似たようなことできるけど、プロンプト5個制限がつらい。

LT② o1モデルのプロンプトエンジニアリングって?

和田さん

  • GPT-4 地頭の向上
    • GPT-4o マルチモーダル、目や耳獲得
    • GPT-4o1 じっくり考える論理的思考の獲得
  • プロンプトのコツ
    • 余計なことはせずに必要な情報だけわかりやすくでいい
    • 「ステップバイステップで」と書かない
    • アウトプットが満たすべき条件は書く

もう賢くなったから「素人は黙っとけ」って感じだそうです。

LT③ OpenAI o1 System Card から見る安全性と評価

totsukaさん

  • System Card
    • 安全対策について書かれたもの
  • 安全性評価
    • 禁止コンテンツ:有害なコンテンツに応答しない(爆弾作成とか)
    • ジェイルブレイク:堅牢性の向上
    • ハルシネーション:正確性の向上
    • 公平性とバイアス:ステレオタイプな選択肢が低い、わからないことは答えない
  • CoTの欺瞞
    • それっぽURLを作ったりしないか?
  • 外部レッドチーム

LLMのモデルってこんな評価してるのね。

LT④ 新モデルOpenAI o1、実際に試してみたらこうなった

岸田さん

  • 東京のマンホールの数をフェルミ定数を使って数えて
    • o1のほうがいい回答
    • 思考の概要が見れるのが面白い
  • 雑なプロンプトでゲーム作らせる

PoC作るのがさらに楽になりそうです。