最適化されたプロンプトとGPT-4によりChatGPTが日本の医師国家試験に合格可能な成績を達成！

　金沢大学融合研究域融合科学系の野村章洋准教授と株式会社 MICIN の共同研究グループは，ChatGPT に日本の医師国家試験を解かせるために最適化されたプロンプト（※1）を開発しました。さらに，このプロンプトと GPT（※2）-4 を用いることで、最低合格得点率を上回ることに成功しました。

　2023 年初頭，ChatGPT にアメリカの医師国家試験（USMLE）を解かせたという論文がジャーナルに公開されて以降，ChatGPT の医療・ヘルスケア分野での活用可能性が世界的に大きな注目を浴びるようになりましたが，英語圏以外の医師国家試験での研究は発展途上でした。

　本研究では，まず第 116 回医師国家試験（2022 年 2 月実施）の問題の中から画像データを有さない 290 問を基に，GPT-3.5 ならびに GPT-4 を用いて最も正答率の高いプロンプトを決定しました。次に，その最適化されたプロンプトを用いて GPT-4 モデルを搭載した ChatGPT に，第 117 回医師国家試験（2023 年 2 月実施）を解かせたところ，必修問題で 82.7％，基礎・臨床問題で 77.2％のスコアを獲得し，それぞれ最低合格得点率を上回る結果となりました。

　さらに，ChatGPT が誤答を出力した原因の詳細分析を行いました。その結果，医学知識の不足や日本特有の医療制度に関する情報不足，計算問題での誤りなどが誤答要因であることが分かりました。

　本研究結果より，実際の医療現場での運用にはまだ課題が残りますが，ChatGPTが日本の医師国家試験の最低合格得点を超える可能性を持つことが示されました。また，近い将来，大規模言語モデルが日本国内の医療現場において活用される医療用AIの基盤モデルの一つとなることが期待されます。

　本研究成果は，2024 年 1 月 23 日に国際学術誌『PLOS Digital Health』にオンライン掲載されました。

図 1：研究デザイン

【用語解説】

※1：プロンプト
　人間が、対話型生成 AI に入力する指示内容のこと。プロンプトの内容を工夫することで、大規模言語モデルはそのままに、より人間側が意図するタスクをモデルに行ってもらい、その性能を向上させることが可能となる場合がある。

※2：GPT （Generative Pretraind Transformer）
　OpenAI 社が開発した Transformer と呼ばれる機械学習アルゴリズムをベースに改良が加えられた言語モデルのこと。

プレスリリースはこちら

ジャーナル名：PLOS Digital Health

研究者情報：野村章洋