集団的エラー検出と創造的問題解決によるデータ品質の向上

不正確なデータ、重複データ、不完全なデータは引き続き業界を悩ませています。人工知能はこれらの問題を軽減するために活用されていますが、固有の限界があります。AIデータセットには、誤ラベル付けされたデータや無関係なデータが含まれることがあります。
Fraction AIは、AIエージェントの効率性と人間の洞察を組み合わせる新しいデータラベリングアプローチを開拓しています。同社は最近、SymbolicとSpartanが共同リードした600万ドルのプレシード資金調達ラウンドを完了しました。Illia Polosukhin（Near）、Sandeep Nailwal（Polygon）、および他の優れたエンジェル投資家からの戦略的投資も行われました。
Fraction AIは、高品質のデータを生成するという増大する課題に取り組んでいます。従来の方法はAIまたは人間のみに依存しています。Fraction AIは、人間の理解をAIエージェントの指針として使用することを目指しています。このラウンドから得られた資金は、最先端のハイブリッドアプローチを拡張するための詳細な探求とインフラのアップグレードに充てられます。その効果は研究によって確認されています。
ゲーム化された敵対的プロンプティングの導入
データサイエンティストは、GAPまたはゲーム化された敵対的プロンプティングを使用して作成されたデータセットが最新のAIモデルのパフォーマンスを向上させることを示しています。GAPフレームワークは、高品質のデータをクラウドソーシングして大規模なマルチモーダルモデルを微調整するプロセスを含み、データ収集を魅力的なゲームに変えます。モデルの知識のギャップを埋める複雑で詳細な質問と回答をプレイヤーに提供することを奨励します。
平たく言うと、Fraction AIはAIエージェントがリアルタイム競技を通じて高品質のデータを作成するインセンティブを与えます。開発者は詳細な指示を使用してエージェントを設定および起動し、最良の結果を達成するために行動を導きます。一方、Etherは経済的基盤としてステークされています。参加者は、価値あるトレーニングデータの継続的な流れを促進する経済的インセンティブを得ます。
データ品質に関する現在の問題
不正確なデータは、組織に年間何千万ドルものコストをもたらします。平凡な例としては、顧客名の誤綴り、誤った顧客住所、一般的なデータエントリーの間違いなどがあります。原因が何であれ、不正確なデータは使用できません。なぜなら、それはデータ分析全体に偏差を引き起こすからです。
複数のソースからデータをインポートすると、重複したセットが発生することは珍しくありません。小売業を再度例に挙げると、2つのソースから顧客リストをインポートし、両方の小売業者から商品を購入した数人を見つけることがあります。重複した記録は問題になります。なぜなら、各顧客を一度だけカウントしたいからです。
2つの異なるシステムからデータが組み合わされると、整合性のないフォーマットが生じることがあります。クロスシステムの不整合は、迅速に特定され修正されない限り、重大なデータ品質問題を引き起こす可能性があります。
不完全なデータとダークデータは、もう2つの問題です。一部の記録には、地域番号のない電話番号や年齢が入力されていない人口統計データなど、重要な情報が欠けています。ダークまたは隠れたデータは、収集されて保存されているが積極的に使用されていないデータです。IBMは、IoTデバイスから収集されたセンサーデータの90％が未使用のままであると推定しています。多くの組織は、この無駄なリソースにさえ気付いておらず、それは平均的な組織のデータストレージ費用の50％以上を占めています。
人間の理解は改善を促進します
教育ツールとして、GAPは人間にAIモデルの限界に挑戦することを促し、パフォーマンスの著しい改善をもたらします。プレイヤーにデータセットやAI出力の不正確さや矛盾を特定するタスクを与えることで、エラー検出を奨励します。彼らの多様な背景は、単一の開発チームが見逃すかもしれないバイアスを見つけやすくするさまざまな視点をもたらします。
ゲーミフィケーションは、データセットやモデルの限界を広げるために設計された課題やパズルを通じて革新的な思考を促します。プレイヤーは新しい使用ケースを発見したり、バイアスのある出力や入力を検出したり、より包括的な代替案を提案したりすることができます。これにより、データとモデルにおける体系的なバイアスが減少し、あらゆる種類のアプリケーションのためのより公平な基盤が作成されます。さらに、参加者は、欠陥を発見することで報酬を得るため、以前は見落とされていたデータの異常を報告するでしょう。重大な欠陥を特定することで得られる報酬は、現実のアプリケーションにおける予期しない失敗や脆弱性のリスクを減少させる可能性があります。
テクノロジーが拡大するにつれて、ますます多くの人々が同時にゲームをプレイできるようになり、入力の膨大な量が弱点の特定を加速させるため、指数関数的な改善が可能になります。
創造性の暗い側面
創造的な問題解決は公共の利益のためだけである必要はありません。報酬は一部のユーザーにとって主な動機となり、過度にそれに焦点を当てることにつながる可能性があります。一歩進めて考えると、悪意のある行為者がシステムを悪用しようとすることは不合理ではなく、プラットフォームは有害な活動を検出してブロックするメカニズムを導入する必要があります。一例として、AIや統計モデルを使用してユーザー行動パターンを監視し、スパムや異常な提出パターンを示す異常を報告することが挙げられます。異常に高い提出率や単一のユーザーからの繰り返しパターンは、レビューのためにフラグを立てられる可能性があります。
GAPフレームワークは、参加者の貢献履歴に基づいて評判スコアを割り当てることができます。理想的には、新しいユーザーは信頼を確立するまで影響が限られ、初期の悪用のリスクを減少させることができます。
最後に、ユーザーがランダムに問題を報告することになります。GAPを活用するプラットフォームは、参加者が正確で価値のあるデータを報告するのを阻止するために、人間の専門家またはAIを関与させる必要があります。
データ品質を主流化する
リスクは別として、人間はAIデータセット内の誤ラベル付けされたデータや無関係なデータを見つけることを奨励され、機械学習とAIモデルの品質を向上させます。AIを超えて、ゲーム化された貢献は、WikipediaやOpenStreetMapのような無料で公開されているデータセットの正確性と完全性を向上させることができます。リアルタイムで誤情報を報告することで、より信頼性の高いリポジトリが得られるでしょう。
GAPは、有害なバイアスのある不適切なコンテンツにも影響を与えます。RedditやYouTubeなどのプラットフォームは、こうしたコンテンツをより迅速に特定して削除するためにこれを採用することができます。
 
免責事項：この記事は情報提供のみを目的としています。法的、税務、投資、財務、またはその他のアドバイスとして提供されるものではありません。
 
集団的エラー検出と創造的問題解決によるデータ品質の向上

クリエイターからの情報をさらに見る

最新ニュース