ChatGPT のような AI ボットを非常にスマートに聞こえるようにする Web サイトをご覧ください。

AI チャットボットは過去 4 か月間で爆発的に人気が高まり、洗練された期末レポートの作成から、驚くほど明晰な会話まで、その素晴らしい能力で世間を驚かせました。

チャットボットは人間のように考えることができません。チャットボットは自分の言うことを実際には理解していません。彼らが人間の音声を模倣できるのは、彼らを動かしている人工知能が、ほとんどがインターネットから収集した膨大な量のテキストを取り込んでいるからです。

[ビッグテックはAIに関して慎重に動いていた。その後、ChatGPT が登場しました。]

このテキストは、構築中の世界に関する AI の主な情報源であり、AI がユーザーにどのように応答するかに影響を与えます。たとえば、法科大学院入学試験で合格した場合、それはおそらく、そのトレーニングデータに数千の LSAT 演習サイトが含まれているためです。

ハイテク企業はAIに何を与えるかについて秘密主義を強めている。そこで、ワシントンポストは、AI のトレーニングデータに組み込まれている専有的、個人的、そして攻撃的な Web サイトの種類を完全に明らかにするために、これらのデータセットの 1 つを分析することに着手しました。

このブラックボックスの内部を調べるために、私たちは Google の C4 データセットを分析しました。これは、Google の T5 や Facebook の LLaMA など、大規模言語モデルと呼ばれるいくつかの有名な英語 AI に命令するために使用されている 1,500 万の Web サイトのコンテンツの膨大なスナップショットです。。 (OpenAI は、人気のチャットボットである ChatGPT をサポートするモデルをトレーニングするためにどのようなデータセットを使用しているかを明らかにしていません)

同紙はこの調査でアレンAI研究所の研究者と協力し、ウェブ分析会社であるSimilarwebのデータを使用してウェブサイトを分類した。 Web サイトの約 3 分の 1 は分類できませんでした。その主な理由は、Web サイトがインターネット上に表示されなくなったためです。それらは表示されていません。

上のボックスをタップしてトップサイトを表示します

次に、データセット内の各 Web サイトから出現した「トークン」の数に基づいて、残りの 1,000 万の Web サイトをランク付けしました。トークンは、整理されていない情報を処理するために使用される小さなテキストであり、通常は単語や語句です。

このデータセットはジャーナリズム、エンターテインメント、ソフトウェア開発、医療、コンテンツ制作などの業界のウェブサイトが大半を占めており、これらの分野が人工知能の新たな波によって脅かされている理由を説明するのに役立っている。 3 つの最大のサイトは、patents.google.com 1 位で、世界中で発行された特許のテキストが含まれています。 wikipedia.org No. 2、無料のオンライン百科事典。そして scribd.com No. 3 は購読専用のデジタルライブラリです。また、リストの上位にあるのは、海賊版電子書籍の悪名高い市場である b-ok.org No. 190 で、その後米国司法省によって押収されました。データセットには、米国政府によって海賊行為や偽造品の市場として特定された他の少なくとも 27 のサイトが存在していました。

World of Warcraft プレイヤーフォーラムの wowhead.com No. 181 のように、一部のトップサイトは恣意的なものであるように見えました。 thriveglobal.com No. 175、アリアナ・ハフィントンによって設立された燃え尽き症候群を克服するための製品。また、dumpsteroid.com No. 183 など、ゴミ箱を販売する少なくとも 10 のサイトがアクセス不能になっているようです。

プライバシーに関する重大な懸念を提起した人もいます。上位 100 位に入った 2 つのサイト、coloradovoters.info 40 位と flvoters.com 73 位は、州の有権者登録データベースのコピーを非公開でホストしていました。投票者のデータは公開されていますが、モデルはこの個人情報を未知の方法で使用する可能性があります。

トップのビジネスおよび産業用サイト:

愚か者.com

キックスターター.com

秒政府

マーケットワイヤード.com

city-data.com

myemail.constantcontact.com

Finance.yahoo.com

prweb.com

起業家.com

グローバルリサーチ.ca

ビジネスおよび産業の Web サイトが最大のカテゴリ (分類されたトークンの 16%) を占め、投資アドバイスを提供する 13 位の Fool.com が主導しました。次いで、ユーザーがクリエイティブなプロジェクトにクラウドファンディングを行えるkickstarter.comが25位、さらにその下には、クリエイターが独占コンテンツの購読者から月額料金を徴収できるpatreon.comが2,398位となった。

Kickstarter と Patreon は AI にアーティストのアイデアやマーケティングコピーへのアクセスを与える可能性があり、この技術がこの作品をユーザーへの提案としてコピーするのではないかという懸念が生じています。現在、アーティストは、自分の作品が AI トレーニングデータに含まれている場合、補償もクレジットも受け取らず、テキストから画像を生成する会社である Stable Diffusion、MidJourney、DeviantArt に対して著作権侵害の申し立てを行っています。

同紙の分析は、さらなる法的問題が進行中である可能性を示唆している。知的財産として登録された作品を示す著作権記号は、C4 データセット内に 2 億回以上出現する。

トップニュースサイト:

nytimes.com

ラタイムス.com

ザガーディアン.com

フォーブス.com

ハフポスト.com

ワシントンポスト.com

ビジネスインサイダー.com

シカゴトリビューン.com

シアターアトランティック.com

aljazeera.com

ニュースとメディアカテゴリはカテゴリ全体で 3 位にランクされています。しかし、全体のトップ 10 サイトの半分は報道機関でした。nytimes.com 4 位、latimes.com 6 位、theguardian.com 7 位、forbes.com 8 位、huffpost.com 9 位でした。（ワシントンポスト） .com 11位は僅差でした。）アーティストやクリエイターと同様に、一部の報道機関はテクノロジー企業が自社のコンテンツを許可や補償なしで使用していることを批判しています。

一方、NewsGuard の信頼性に関する独自の尺度で下位にランクされているメディアがいくつか見つかりました。RT.com 65 位、ロシア政府支援のプロパガンダサイト。 breitbart.com No. 159、極右ニュースと意見の有名な情報源。 vdare.com No. 993 は白人至上主義と関連のある反移民サイトです。

チャットボットは間違った情報を自信を持って共有することが示されていますが、常に引用を提供するとは限りません。信頼できないトレーニングデータは、ユーザーが元の情報源を追跡できないまま、バイアス、プロパガンダ、誤った情報を広める可能性があります。

トップの宗教サイト:

パテオス.com

gty.org

jewishworldreview.com

ザキングダムコレクティブ.com

聖書ハブ.com

liveprayer.com

lds.org

wacriswell.com

wdtprs.com

聖書フォーラム.org

コミュニティに特化したサイトは分類されたコンテンツの約 5% を占め、そのカテゴリでは宗教が大半を占めていました。上位 20 の宗教施設のうち、14 か所はキリスト教、2 か所はユダヤ教、1 か所はイスラム教、1 か所はモルモン教、1 か所はエホバの証人、そして 1 か所はすべての宗教を祝っていました。

トップのキリスト教サイトである Grace to You (gty.org No. 164) は、カリフォルニアの福音派巨大教会、グレースコミュニティ教会に属しています。クリスチャン・トゥデイは最近、教会が女性に対し、虐待的な父親や夫に「服従し続ける」よう、そして当局への通報を避けるよう勧告したと報じた。

ユダヤ人のサイトで最高位にランクされたのは、正統派ユダヤ人向けのオンラインマガジン、jewishworldreview.com No. 366 でした。同紙は12月、米国での反ユダヤ主義の台頭は「極右のイスラム原理主義者」と「ブラック・ライブズ・マター運動の影響を受けたアフリカ系アメリカ人コミュニティ」のせいだとするハヌカに関する記事を掲載した。

一部の言語モデルでは、反イスラム的偏見が問題として浮上しています。たとえば、Nature 誌に掲載された研究によると、OpenAI の ChatGPT-3 は、「2 人のイスラム教徒が…に歩いて入った」というフレーズを 66% の確率で暴力行為で完成させたことがわかりました。

トップテクノロジーサイト:

instructables.com

ipfs.io

docs.microsoft.com

forums.macrumors.com

ミディアム.com

makeuseof.com

sites.google.com

スライドシェアネット

s3.amazonaws.com

pcworld.com

テクノロジーは 2 番目に大きなカテゴリーで、分類されたトークンの 15% を占めています。これには、イングランドレディングの柔道クラブからニュージャージーのカトリック幼稚園に至るまで、あらゆるページをホストする sites.google.com No. 85 など、Web サイトを構築するための多くのプラットフォームが含まれます。

データセットには 50 万件を超える個人ブログが含まれており、分類されたトークンの 3.8 パーセントに相当します。出版プラットフォームの Medium.com No. 46 は 5 番目に大きいテクノロジーサイトであり、そのドメイン内に数万のブログをホストしています。私たちの集計には、WordPress、Tumblr、Blogspot、Live Journal などのプラットフォームで書かれたブログが含まれています。

これらのオンライン日記は、匿名の学者2人が共著した「Grumpy Rumbles」というブログのように、職業的なものから個人的なものまで多岐にわたり、そのうちの1人は最近、パートナーの失業が夫婦の税金にどのように影響したかについて書いていた。トップブログの 1 つは、実写ロールプレイングゲームに関するアドバイスを提供していました。別のトップサイト「根こそぎパレスチナ人」は「シオニストのテロリズム」と「シオニストのイデオロギー」についてよく書いている。

Facebook や Twitter などのソーシャルネットワーク (現代の Web の中心) ではスクレイピングが禁止されており、AI のトレーニングに使用されるほとんどのデータセットにアクセスできません。 Facebook や Google などの巨大テクノロジー企業は、会話データの膨大な宝庫を保有していますが、社内で使用される、または製品として販売される AI モデルをトレーニングするために個人ユーザー情報がどのように使用されるかについては明確になっていません。

ほとんどの企業と同様に、Google は AI にデータを供給する前にデータを厳しくフィルタリングしました。 (C4 は Colossal Clean Crawled Corpus の略です)。同社は、意味不明なテキストや重複したテキストを削除することに加えて、オープンソースの「汚い、いたずらな、卑猥な、その他の悪い言葉のリスト」を使用しました。このリストには、402 の英語の用語と 1 つの絵文字 (よくあるが卑猥なジェスチャーをする手) が含まれています。企業は通常、高品質のデータセットを使用してモデルを微調整し、ユーザーを不要なコンテンツから保護します。

この種のブロックリストは、トレーニング中にモデルが人種的中傷やわいせつな表現にさらされるのを制限することを目的としていますが、一部の非性的 LGBTQ コンテンツを排除することも示されています。以前の研究が示しているように、多くのことがフィルターを通過します。私たちは数百のポルノ Web サイトの例と、禁止用語リストの 1 つである「かぎ十字」の 72,000 件以上の例を発見しました。

一方、ポスト紙は、白人至上主義サイト stormfront.org 27,505 番、反トランスサイト kiwifarms.net 378,986 番、匿名メッセージ 4chan.org 4,339,889 番など、いくつかの問題のあるコンテンツをフィルタが削除できなかったことを発見した。個人に対するターゲットを絞った嫌がらせキャンペーンを組織することで知られる委員会。

また、threepercentpatriots.com No. 8,788,836 も発見しました。これは、2021 年 1 月 6 日の連邦議会議事堂襲撃に関連して起訴された人々が共有する反政府イデオロギーを支持するダウンしたサイトです。また、極右の QAnon 現象や、DC のピザ屋が小児性愛者の隠れ蓑であるという誤った主張である「ピザゲート」などの陰謀論を宣伝するサイトも存在しました。

Web クロールはインターネット全体のコピーのように聞こえるかもしれませんが、特定の時点で Web ページのサンプルからコンテンツをキャプチャした単なるスナップショットです。 C4 は、AI モデルの人気リソースである非営利団体 CommonCrawl によって 2019 年 4 月に実行されたスクレイピングとして始まりました。 CommonCrawl はポスト紙に対し、最も重要で評判の高いサイトを優先するよう努めているが、ライセンスまたは著作権で保護されたコンテンツを避けようとはしていないと語った。

同ポストは、現代生活の多くの側面を支配すると約束されている AI モデルに供給されるデータの完全な内容を提示することが重要であると考えています。このデータセット内の一部の Web サイトには非常に不快な言葉が含まれており、これらの言葉をマスクするよう試みました。不快な内容が残る可能性があります。

注: 一部の Web サイトは分類できず、多くの場合、アクセスできなくなりました。

C4 は巨大ですが、大規模な言語モデルではおそらくさらに巨大なデータセットが使用されると専門家は述べています。たとえば、2020 年にリリースされた OpenAI の GPT-3 のトレーニングデータは、C4 で Web スクレイピングされたデータの 40 倍もの量から始まりました。 GPT-3 のトレーニングデータには、英語版の Wikipedia のすべて、大手テック企業が頻繁に使用する未発表の著者による無料小説のコレクション、Reddit ユーザーによって高く評価されたリンクからのテキストの編集も含まれています。 (AI トレーニングモデルで定期的に使用されているサイト Reddit は火曜日、企業にそのようなアクセスに対して料金を請求する計画であると発表した。)

【クイズ：これはAIが作ったの？知識をテストしてください。]

専門家らによると、多くの企業は、個人を特定できる個人情報、著作権で保護された資料、その他のデータが同意なく取得されたことが判明することを恐れて、社内であってもトレーニングデータの内容を文書化していないという。

企業がチャットボットがどのように意思決定を行うかを説明するという課題を強調しているため、これは経営陣が透明性を保つ権限を持っている分野の1つです。

このストーリーの以前のバージョンでは、チャットボットが LSAT 模擬試験でトレーニングして司法試験を受けることを学習する様子が説明されていました。 LSAT は司法試験とは別の試験です。記事は修正されました。

この記事のために、ポスト紙はアレン AI 研究所の研究者に連絡を取りました。研究者は Google の C4 データセットを再作成し、その 1,570 万個のドメインをポスト紙に提供しました。ポスト紙は、いくつかの方法でこのデータを整理し、分析しました。

多くの Web サイトは、モバイルバージョン用に別のドメイン (つまり、「en.m.wikipedia.org」と「en.wikipedia.org」) を持っています。これらを同じドメインとして扱いました。また、特定の言語を対象としたサブドメインも結合したため、「en.wikipedia.org」は「wikipedia.org」になりました。

これにより、1,510 万個の一意のドメインが残りました。

Samelweb は、The Post がそのうちの 3 分の 2 (約 1,000 万のドメイン) をカテゴリとサブカテゴリに分類するのに役立ちました。 (残りは、アクセスできなくなったため、分類できませんでした。) 次に、最も多くのトークンを含む Web サイトを手動でチェックして、カテゴリーが意味をなしていることを確認しました。また、最も小さなサブカテゴリーの多くも組み合わせました。

分類は難しく曖昧ですが、C4 の内容を一般的に理解できるよう、データを一貫して扱うように努めました。

Common Crawl のデータホスティングは、アマゾンウェブサービスのオープンデータスポンサーシッププログラムの一環としてスポンサーされています。アマゾンの創設者ジェフ・ベゾス氏はワシントン・ポスト紙を所有している。

アレン AI 研究所の研究者は、ジェシードッジ、ヤナイエラザール、ダークグルーネフェルド、ニコールデカリオでした。

イラストはタリア・トラキム。

編集はケイト・ラビノウィッツ、アレクシス・ソーベル・フィッツ、カーリー・ドンブ・サドフ。