最近のアメリカの大学での研究は、AIモデル、特にコーディング支援を目的としたモデルが意外にもしばしば誤った結果を生成することを示しています。たとえば、OpenAIの商用モデルは5.2%のハルシネーション率を示す一方で、オープンソースモデルは驚くべきことに21.7%にも達します。つまり、生成されるコードのうち、なんと5つに1つが不正確または全く存在しないものである可能性があるのです。想像してみてください。開発者がAIを使って複雑な関数を作成し、後になって提案されたライブラリが架空のものであることに気づいたら、どれほど困惑することでしょう。このようなハルシネーションは、特に精度が求められる重要なシステム開発において、大きなリスクをもたらします。たった一つのコーディングミスが致命的なソフトウェア問題を引き起こすことがあるため、開発者は注意深く行動する必要があります。
さらに興味深いことに、AIモデルのサイズとその信頼性には明確な関係があります。研究によれば、大きなモデルほどハルシネーションが生じる傾向が強いことが明らかになっています。例えば、GPT-4のハルシネーション率は5.76%で、これまでの推定値である24.2%と比べると大幅な改善があります。このことは、モデルがどうすれば効果的に機能するのかを再考するきっかけとなります。そして、興味深いデータがあります。人間の評価者はAIによって生成されたコードを誤って正しいと認識することが、実に10%から40%の頻度で発生しています。このような誤認識は、AIの出力に頼ることの難しさを浮き彫りにし、信頼性を確保するための厳格な検証プロセスを必要とする理由を説明しています。
こうした懸念の中、オープンソースのAIソリューションの進展には希望の兆しが見えています。アレン人工知能研究所(Ai2)が開発したMolmoファミリーのモデルが、その一例です。これらのモデルは、高性能を実現するために、必ずしも膨大なパラメータが必要ないことを示しています。具体的に言えば、Molmoモデルには72億のパラメータがありながら、OpenAIの新しいオファーと十分に競争できる性能を持っています。少数の厳選されたデータセットを使用することで、質を重視したアプローチを取っているのです。これにより、Ai2のモデルは過剰な計算負担を伴わずに優れた出力を提供し、ハルシネーションのリスクをより低く抑えています。AIへの依存がますます高まる中、こうした革新的な戦略は、信頼性向上へとつながる期待を抱かせます。開発者がコーディングアシスタントを信頼し、積極的に活用することは、作業の効率化に加え、急速に進化する技術環境の中での創造性を育むためにも不可欠です。
Loading...