在理解这一点之前,我们需要对机器学习算法有一些了解,机器学习算法可用于各种学习算法,例如监督学习、无监督学习或两者兼有。监督学习算法使用标记数据来学习模式并进行预测,而无监督学习算法则使用没有预先存在的标签的数据来识别异常或聚类。可以同时训练多个模型来捕捉可疑活动的不同方面。
币安机器学习工程师通常使用两种类型的管道。它们是批处理和流式处理。
批处理:用于大量数据
流式传输:实时收集数据。这使得需要近乎即时响应的情况成为可能,例如在从任何账户提取资金之前检测出黑客。
以上两个管道都很重要。批处理最适合处理大量数据,而流式处理更适合提供实时响应。
假设为了预防欺诈,它需要优先考虑实时数据以避免出现称为“模型陈旧”的情况。
过期的影响
如果人们不了解最新的信息或技术,机器学习模型也会变得不那么准确。鉴于这种情况,我希望每个人都能随时了解最新信息或技术。
账户接管(ATO)模型。
ATO 模型训练识别非法用户出于恶意目的劫持的账户。然后该模型测量过去一分钟内进行的交易数量。
黑客遵循以下步骤。
1. 序列模式
2. 操作次数多(短时间内提款)
在这种情况下,币安系统会在潜在威胁发生时尽快计算该特征。这意味着通过该模型处理用户操作和用户活动数据之间的延迟最小化。
如需了解更多信息,请访问
https://engineering.linkedin.com/blog/2022/near-real-time-features-for-near-real-time-personalization
批量计算角色:
特征陈旧性的重要性取决于模型。例如,某些特征相对稳定。在上面提到的 ATO 案例中,它还需要检索用户过去 30 天内的提款数据,以根据他们最近的交易计算比率。
在这种情况下,虽然等待数据到达数据仓库以及等待批处理作业定期运行会导致更高的过期时间,但较长时间段(例如每日或每小时间隔)的批处理计算是可以接受的。
本文中的一些数据取自币安博客,因此如果您想了解更多详细信息,请访问币安博客。#azuki #pepe #crypto2023 #DYOR