人工知能(AI)は人間と同じように物事を認知し、理解できるのだろうか。中国の科学者チームは、行動実験と神経イメージング分析を組み合わせた研究により、AI技術に基づくマルチモーダル大規模言語モデルが、人間に極めて類似した「物体概念表象システム」を自発的に形成することを実証した。中国新聞網が伝えた。
今回の研究成果は、AIが人間レベルの認知を自発的に形成できることを意味する。
研究は中国科学院自動化研究所(以下「自動化研究所」)神経計算・ブレインマシンインタフェース研究チームと、中国科学院脳科学・智能技術卓越創新センターのチームなどが共同で実施した。関連論文は9日、国際的学術誌「Nature Machine Intelligence」にオンライン掲載された。今回の成果はAI認知科学における新たな方向性を示しただけでなく、人間のような認知構造を持つAIシステムを構築するための理論的枠組みを提供するものでもある。
論文の筆頭著者で自動化研究所の杜長徳副研究員は、「人類は自然界に存在する物体を概念化する能力を持ち、この認知能力は長らく人類知能の中核とされてきた。例えば、人々が『犬』や『自動車』『リンゴ』などを見たとき、その物理的特徴(サイズ、色、形など)を識別できるだけでなく、その機能や感情的価値、文化的意味まで理解できる。このような多次元的な概念表象が人類の認知基盤を形成している」と説明した。
近年、ChatGPTなどに代表される大規模言語モデルの急速な発展に伴い、「これらの大規模言語モデルが言語やマルチモーダルなデータから、人間に類似した物体概念表象を形成できるか」という根本的な問題が浮上し、大きな注目を集めている。
論文の責任著者で自動化研究所の何暉光研究員は、「従来のAI研究は物体認識の精度ばかりに注目し、モデルが物体の意味を本当に理解しているかどうかはほとんど議論されてこなかった。現在のAIは猫と犬の画像を識別できるが、その識別と人間の理解には本質的な違いがある」と指摘した。
研究チームは今回、認知神経科学の古典的理論をもとに、計算モデリング、行動実験、脳科学を結びつけた革新的なパラダイムを設計した。チームは認知心理学における古典的な「三者択一タスク」を採用し、大規模言語モデルと人間に対して、物体概念の三元組(1854種類の日常概念の任意の組み合わせ)から最も類似していない選択肢を選ばせた。470万回の行動判断データを分析することで、研究チームは初めてAIモデルの「概念マップ」を構築した。
研究チームはこれを踏まえ、大量の大規模言語モデル行動データから66の「心的次元」を抽出し、それぞれに意味ラベルを付与した。その結果、これらの次元は高い説明可能性を持ち、顔や風景、身体などを処理する脳のカテゴリー選択領域における神経活動パターンと有意に相関することが明らかになった。
研究チームはさらに、複数のモデルの行動選択パターンと人間との一致度を比較し、マルチモーダル大規模言語モデルがより高い一致性を示すことを確認した。また、人間は意思決定の際に視覚的特徴と意味情報を組み合わせて判断する傾向がある一方で、大規模言語モデルは意味ラベルや抽象的概念により強く依存する傾向があることも明らかになった。
何氏は「機械による『認識』から『理解』への飛躍を実現した本研究は、大規模言語モデルが『ランダムなオウム』ではなく、内部に人間と類似した現実世界の概念理解を備えていることを示した。その核心的な発見は、人工知能の『心的次元』が人間とは異なる経路をたどりながらも、同じ目的地に到達する可能性があるということだ」と述べた。
(画像提供:人民網)