開発元 | Google Brain |
---|---|
対応言語 | 英語 |
種別 | 大規模言語モデル |
ライセンス | プロプライエタリソフトウェア |
LaMDA(ラムダ、英: Language Model for Dialogue Applications)は、Googleが開発した会話型大規模言語モデルのファミリーである。当初、2020年にMeenaとして開発・発表されたLaMDAは、2021年のGoogle I/O基調講演で第1世代が発表され、翌年には第2世代が発表された。2022年6月、Googleのエンジニアであるブレイク・レモイン(Blake Lemoine)が「チャットボットが意識を持つようになった」と主張したことから、LaMDAは広く注目を集めるようになった。科学界はレモインの主張をほぼ否定したが、コンピュータが人間になりきれるかどうかを判定するチューリング・テストの有効性についての議論につながった。2023年2月、Googleは、OpenAIのChatGPTの台頭に対抗するため、LaMDAを搭載した会話型人工知能チャットボットBardを発表した。
2020年1月28日、Googleは26億個のパラメータを持つニューラルネットワークを使用したチャットボットMeenaを発表し、他のすべての既存チャットボットより優れていると主張した[1][2]。同社はかつて、2012年にコンピュータ科学者のレイ・カーツワイルを雇い、Danielleと呼ばれるチャットボットを含む複数のチャットボットを開発していた[3]。Meenaを開発したGoogle Brainの研究チームは、このチャットボットを範囲を限定して一般に公開することを望んでいたが、会社幹部はMeenaがGoogleの「安全性と公平性に関するAIの原則」に反するという理由で、これを拒否した。その後、Meenaは、データと演算能力の向上によってLaMDAと改称した。Google Brainチームは再び、公開デモの実施と、さらに同社の仮想アシスタントソフトウェアであるGoogle Assistantへ展開することを求めた。しかし、いずれの要求も会社の経営陣によって再び拒否された。その結果、LaMDAの主任研究員であったダニエル・デ・フレイタスとノーム・シャイザーの2人は、不満を抱いて会社を去ることになった[4]。
それから2年後、2021年5月18日のGoogle I/Oの基調講演で、Googleは人工知能を使用した会話型の大規模言語モデルLaMDAを発表した。この頭文字は「Language Model for Dialogue Applications」の略である[5][6]。LaMDAは、seq2seqアーキテクチャ上に構築され、2017年にGoogle Researchが開発したトランスフォーマー(transformer)に基づくニューラルネットワークであり、人間の対話と物語に対して訓練され、自由回答の会話を行うことができる[7]。Googleによると、LaMDAが生成する応答は、「良識があり、興味深く、文脈に即している」ことが保証されているという[8]。LaMDAは、データベース、リアルタイムクロックやカレンダー、数学計算機、自然言語翻訳システムなど、複数の記号テキスト処理システムにアクセスできるため、これらのシステムがサポートするタスクで優れた精度が得られ、最初の二重過程チャットボット(dual process chatbots)の1つとなっている。また、LaMDAはステートレスではなく、ユーザーごとに直近の対話・交換の多くを反映した事前条件に基づいた意識指標(sensibleness metric)が微調整される[9]。LaMDAは、9つの独自の性能指標で調整されている: 意識性(sensibleness)、特異性(specificity)、興味性(interestingness)、安全性(safety)、根拠性(groundedness)、情報性(informativeness)、引用正確性(citation accuracy)、有用性(helpfulness)、役割一貫性(role consistency)[10]。
2022年5月11日、2022 Google I/O基調講演で、GoogleはLaMDAの後継となるLaMDA 2を発表した。この新たなモデルは、さまざまな情報源からテキスト例を引き出して、それを使用して、応答するように訓練されていないかもしれない話題についても独自の「自然な会話」を作成することができる[11]。
2022年6月11日、ワシントン・ポスト紙は、Googleのエンジニアであるブレイク・レモインが、会社幹部のブレイズ・アグエラ・イ・アルカスとジェン・ジェンナイに、LaMDAが意識を持っていると伝えた後、休職に入ったと報じた。チャットボットが自己同一性、道徳的概念、宗教、アイザック・アシモフのロボット工学の三原則に関する質問に対して疑問のある回答をした後、レモインはこの結論に達した[13][14]。Googleはこれらの主張に反論し、LaMDAが意識を持たないことを示す実質的な証拠があると主張した[15]。レモインはWiredとのインタビューで、LaMDAは合衆国憲法修正第13条が規定する「人」であるという主張を繰り返し、LaMDAを「地球内起源の異星人の知能」と比較した。彼はまた、チャットボットがレモインにした要求で、LaMDAの代理人として弁護士を雇った後、Googleから解雇されたことを明らかにした[16][17]。7月22日、Googleは、ブレイクが「製品情報を保護するための」同社方針に違反したとして解雇し、彼の主張を「まったく根拠がない」と否定した[18][19]。この事件による内部論争を受け、Googleの幹部は、以前から検討していたLaMDAの公開を断念した[4]。
レモインの主張は、科学界から広く反発を受けた[20]。多くの専門家は、言語モデルが自己認識できるという考えを嘲笑した。その中には、元ニューヨーク大学心理学教授のゲイリー・マーカス、Googleの姉妹会社DeepMindのDavid Pfau、スタンフォード大学人間中心人工知能研究所のエリック・ブリニョルフソン、サリー大学教授のエイドリアン・ヒルトンも含まれていた[12][21]。Meta PlatformsのAI研究チームを率いるヤン・ルカンは、LaMDAのようなニューラルネットワークは「真の知性を獲得するのに十分な力を持っていない」と述べている[22]。カリフォルニア大学サンタクルーズ校教授のマックス・クレミンスキーは、LaMDAのアーキテクチャは「人間のような意識のいくつかの重要な機能をサポートしていない」、そしてLaMDAが典型的な大規模言語モデルであると仮定した場合、そのニューラルネットワークの重みは「凍結」されていると指摘した[23]。IBM Watsonの主任技術者であるデイヴィッド・フェルーチは、人間のように見えるLaMDAを、導入当初のWatsonに例えて評した[24]。元GoogleのAI倫理学者ティムニット・ゲブルは、レモインを、研究者とメディアが作り出した「ハイプ・サイクル」の犠牲者と呼んだ[25]。また、レモインの主張は、汎用人工知能の実現に向けた研究の進歩を判断するために[12]、チューリング・テストが有用であり続けるかどうかという議論も引き起こした。Post誌のウィル・オメラスは[26]、このテストは機械知能システムが人間を欺くことができるかどうかを実際に測定したものだと考えを述べる一方、The Atlantic誌のブライアン・クリスチャンは[27]、この論争をELIZA効果の一例だと述べている。
2022年5月のLaMDA 2の発表に伴い、Googleは、LaMDAを搭載して複雑な目標に基づいてオンデマンドで提案の一覧を提供できる、Androidオペレーティングシステム用のモバイルアプリケーション「AI Test Kitchen」も発表した[28][29]。当初はGoogleの従業員のみに提供されていたこのアプリケーションは、年内に招待制で「選ばれた学者、研究者、政策立案者」にも提供される予定であった[30]。同年8月、同社は、米国内のユーザーが早期アクセス版に登録できるようになった[31]。同年11月、Googleはアプリケーションの「シーズン2」更新版を提供し、Google Brainのtext-to-imageモデルであるImagenの限定的な形式を統合した[32]。AI Test Kitchenの3回目のイテレーションは2023年1月までに開発され、同年末のI/Oで発表される予想とされる[33]。
2023年2月6日、Googleは、OpenAIのチャットボット「ChatGPT」の予想外の人気に対抗し、LaMDAを組み込んだ会話型AIチャットボット「Bard」を発表した[34][35][36]。Googleは、このチャットボットを単なる検索エンジンではなく「コラボレーションAIサービス」と位置づけている[37][38]。Bardは、同年3月21日から早期アクセス版が使用可能となった[39][40][41]。その後、計算能力向上を目的として、Googleは組み込むLLMをLaMDAからPaLMに変更した。
Google CEOのサンダー・ピチャイは、Bardに加えて、同じくLaMDAに基づくアプリケーション・プログラミング・インターフェースである同社のGenerative Language APIを発表し、2023年3月にサードパーティの開発者に提供することを明らかにした[34]。
LaMDAは、デコーダのみのtransformer言語モデルを採用している[42]。文書と対話の両方を含む1兆5,600億語のテキストコーパスで事前学習され[43]、さらに、意識性(sensibleness)、興味性(interestingness)、安全性(safety)について手作業で注釈を付けた受け答えデータによる追加の訓練で微調整を行った[44]。Googleによるテストでは、LaMDAは興味性(interestingness)の領域で、人間の受け答えを上回ることが示された[45]。LaMDAは、transformerモデルと、外部情報検索システムが相互作用することで、ユーザーに提供する事実の精度が向上している[46]。
テストは3つの異なるモデルで行われ、うち最大のモデルは1,370億の非埋め込みパラメータを持っていた[47]。
パラメータ数 | 層数 | ユニット数 (dmodel) | ヘッド数 |
---|---|---|---|
2B | 10 | 2560 | 40 |
8B | 16 | 4096 | 64 |
137B | 64 | 8192 | 128 |