これを理解する前に、機械学習アルゴリズムについて少し知っておく必要があります。機械学習アルゴリズムは、教師あり学習、教師なし学習、またはその両方など、さまざまな学習アルゴリズムで使用できます。教師あり学習アルゴリズムは、ラベル付きデータを使用してパターンを学習し、予測を行いますが、教師なし学習アルゴリズムは、既存のラベルなしでデータを使用して異常またはクラスターを識別します。複数のモデルを同時にトレーニングして、疑わしいアクティビティのさまざまな側面を捉えることができます。
Binance 機械学習エンジニアは通常、バッチとストリーミングの 2 種類のパイプラインを使用します。
バッチ: 大量のデータに使用されます
ストリーミング: 収集されたデータをリアルタイムで提供します。これにより、アカウントから資金を引き出す前にハッカーを検出するなど、ほぼ即時の対応が必要な状況が可能になります。
上記の両方のパイプラインは非常に重要です。バッチは大量のデータを処理するのに最適ですが、ストリーミングはリアルタイムの応答を提供するのに適しています。
不正行為防止を想定すると、「モデルの古さ」と呼ばれる状況を回避するために、リアルタイム データを優先する必要があります。
古さの影響
人々が最新の情報や技術を常に把握していなければ、機械学習モデルの精度も低下する可能性があります。この状況を踏まえると、誰もが常に最新の情報や技術を把握しておくことが望ましいでしょう。
アカウント乗っ取り (ATO) モデル。
ATO モデルは、悪意のある目的で不正ユーザーが乗っ取ったアカウントを識別するようにトレーニングします。次に、このモデルは過去 1 分間に行われたトランザクションの数を測定します。
ハッカーは次の手順に従います。
1. 連続パターン
2. 操作回数が多い(短期間での引き出し)
この状況では、Binance システムは潜在的な脅威が発生した場合に、この機能をできるだけ早く計算します。つまり、このモデルを通じてユーザーのアクションとユーザー アクティビティ データが処理される間の遅延を最小限に抑えることを意味します。
詳しい情報については
https://engineering.linkedin.com/blog/2022/near-real-time-features-for-near-real-time-personalization
バッチコンピューティングの役割:
機能の古さの重要性はモデルによって異なります。たとえば、一部の機能は比較的安定しています。前述の ATO のケースでは、ユーザーの過去 30 日間の引き出しに関するデータを取得して、最新の取引に基づいて比率を計算する必要もあります。
このような状況では、データがデータ ウェアハウスに到着し、バッチ ジョブが定期的に実行されるのを待つことで古さが増すにもかかわらず、毎日または毎時間などのより長い期間にわたるバッチ コンピューティングは許容されます。
この記事の一部のデータは Binance ブログから取得したものです。詳細を知りたい場合は Binance ブログにアクセスしてください。#azuki #pepe #crypto2023 #DYOR