值得信赖的区块链资讯!
如何利用机器学习识别加密项目风险?
通过媒体和社交网站等开源信息追踪可疑加密货币活动,能一定程度识别风险事件。
加密货币是一种存在于数字世界的交易媒介(另一种支付形式),依靠加密技术使交易安全。加密货币背后的技术允许用户直接向他人发送货币,而不需要通过第三方,如银行。为了进行这些交易,用户需要设置一个数字钱包,而不需要提供身份证号码或信用评分等个人细节,因此可以让用户伪匿名。
对于普通的加密货币用户来说,这种匿名性可以让他们放心,因为他们的个人信息或交易数据不会被黑客窃取。然而,这种交易匿名性的提高,也容易被犯罪分子滥用,进行洗钱、恐怖融资等非法活动。这种非法活动给区块链钱包用户以及加密货币实体都造成了巨大的损失。虽然金融行动特别工作组(FATF)等监管机构已经在这些实体的监管中引入了标准化的指导方针,但由于每天都有大量的加密货币实体和交易发生,监控加密货币空间是一项具有挑战性的任务。
解决方案

图片来源: https://dribbble.com/shots/2723032-Needle-in-a-Haystack
因此,人们有兴趣利用开源信息,例如新闻网站或社交媒体平台,来识别可能的安全漏洞或非法活动。在与 Lynx Analytics 的合作中,我们(来自新加坡国立大学的一个学生团队)已经致力于开发一个自动工具,以刮取开源信息,预测每篇新闻文章的风险分数,并标记出风险文章。这个工具将被整合到 Cylynx 平台 中,这是 Lynx Analytics 开发的一个工具,用于帮助监管机构通过使用各种信息源监控区块链活动。
开源信息的数据获取
我们确定了 3 类开源数据,这些数据可以提供有价值的信息,帮助检测加密货币领域的可疑活动。这些类别是:
-
传统的新闻网站,如谷歌新闻,它将报告重大的黑客事件。
-
加密货币专用新闻网站,如 Cryptonews 和 Cointelegraph,它们更有可能报道小型实体和小型安全事件的新闻。
-
社交媒体网站,如 Twitter 和 Reddit,在官方发布黑客新闻之前,加密货币所有者可能会在那里发布有关黑客的消息。

检索文章和社交媒体帖子的内容,然后建立情绪分析模型。该模型为文章中提到的实体分配了一个风险活动的概率。
情绪分析模型
我们尝试了四种不同的自然语言处理工具进行情绪分析,即 VADER、Word2Vec、fastText 和 BERT 模型。在通过选定的关键指标(召回率、精度和 F1)对这些模型进行评估后,RoBERTa 模型(BERT 的一个变种)表现最佳,被选为最终模型。

RoBERTa 模型对新闻文章(标题和摘录)或社交媒体帖子的文本进行处理,并为特定文本分配一个风险分数。由于该文本在数据收集过程中已经被标记为实体,我们现在已经有了加密实体的相关风险指标。在后期,我们将多个文本的风险分数结合起来,给出一个实体的整体风险分数。
RoBERTa 原本是一个使用神经网络结构建立的情感分析模型,我们将最后一层与我们标注的风险分数进行映射,以适应风险评分的环境。为了提高模型在未来文本数据上的通用性,我们进行了几种文本处理方法,即替换实体、删除 url 和替换 hash。然后我们使用这个表现最好的模型进行风险评分。
风险评分
现在,每篇文章都有一个相关的来源(news/reddit/twitter),一个风险概率和一个计数,指的是文章被转发、分享或转发的次数。为了将这些风险概率转换为加密货币实体的单一风险得分,我们首先将文章的概率值缩放到 0 到 100 的范围内,并获得每个来源的加权平均值,结合文章的风险得分和计数。加权平均数用于对计数较高的文章给予更大的重视,因为份额数量很可能表明文章的相关性或重要性。

在计算出各来源的风险得分后,我们对各来源的风险得分进行加权求和,得到综合得分,公式如下:

传统的新闻来源被赋予了更高的权重,因为这些来源更有可能报道重大的安全漏洞(相对于单个用户的黑客事件)。
该解决方案的有效性
我们在 2020 年 1 月 1 日至 2020 年 10 月 30 日的 174 个加密货币实体的名单上测试了我们的解决方案,并将结果与该时间段内的已知黑客案例进行了比较。我们发现,我们的风险评分方法表现相当出色,在 37 个已知的黑客案例中识别了 32 个。我们还分析了我们的解决方案对单个实体的有效性。下图显示了 Binance 从 2020 年 1 月 1 日至 2020 年 10 月 30 日的风险评分。虚线红线代表已知的黑客案例。从图中我们观察到,我们的解决方案报告了 5 个已知黑客中的 4 个黑客的风险得分增加。也有几个峰值与已知黑客案例不一致。然而,这并不构成一个主要问题,因为对我们的模型来说,更重要的是识别尽可能多的黑客,减少未识别的黑客数量。

有趣的发现
在风险评分过程中,我们注意到,与规模较小的实体相比,规模较大的实体的风险评分往往有较大比例的假阳性记录。这是因为大型实体被谈论得更多,因此会有更多的负面帖子和虚假谣言,从而导致更高的不准确率。
另一个值得强调的有趣趋势是,围绕着黑客攻击通常有几个明显的高峰。这是由于不同数据源的反应时间不同。社交媒体网站 Twitter 和 Reddit 通常是第一个看到高风险事件发生时的高峰,因为用户会发帖提出他们观察到的异常情况,比如一个实体的网站在没有事先通知用户的情况下宕机。官方消息一般是在官方声明之后,稍后才会发布。
局限性
我们发现,我们的解决方案有两个潜在的局限性,首先是需要不断地维护收集器。网站设计可能会随着时间的推移而改变,这些网站的刮擦器需要更新,以确保相关信息仍能被检索到,从而达到风险评分的目的。
第二个限制是,验证一篇文章是否已被正确地标记为加密货币实体是具有挑战性的。例如,一篇报道 Bancor 可疑活动的文章可能也会因为一个不相关的事件提到 Binance。我们的解决方案会错误地将新闻标记为两个实体,并将 Binance 标记为风险,即使它不是文本中的关键主题。然而,这并不是一个主要的限制,因为我们只使用新闻文章的标题和摘录来进行风险评分,这通常只包含文章的关键信息。
结语

我们的项目让监管机构可以轻松挖掘开源信息,更好地识别加密货币领域发生的风险事件。我们提供了一个分析文章并预测风险分数的语言模型,以及根据实体和来源信息汇总这些分数的方法。这些方法都被编织成一个可以端到端运行的自动化流水线。将该项目整合到 Cylynx 平台中,将对其现有功能进行补充,并为监管机构识别高风险加密货币实体提供巨大的帮助。
撰文:Pengtai Xu
翻译:Sherrie
比推快讯
更多 >>- CZ:链上预测市场及 AI 将催生更多预言机需求
- 数据:3 万枚 SOL 从匿名地址转出,经中转后流入 Coinbase
- Aster:S4 回购计划即将开始,S3 回购支出近 4930 万 USDT
- 数据:当前加密恐慌贪婪指数为 11,处于极度恐慌状态
- Gate 研究院:10 月一级市场融资额暴增 104.8%,资本重注预测市场与稳定币基建
- Hourglass:Stable 预存款第二阶段结束,超 1 万个验证钱包贡献了超 11 亿美元的合格存款
- Balancer 黑客开始将 ETH 转移至 Tornado Cash
- Santiment:投资者需警惕底部共识陷阱,真正底部通常在多数人预期价格将继续下探时形成
- 数据:288 枚 BTC 从多个地址转入 Crypto.com,价值约 1881 万美元
- 数据:LTC 涨超 29%,GAS 触及今日新高
- CryptoQuant 创始人:资金仍在流入比特币,市场随时可能反弹
- 数据:某波段巨鲸清仓 5772 枚 ETH,亏损 774 万美元,持仓两个月资产缩水 29.7%
- RootData:ID 将于一周后解锁价值约 116 万美元的代币
- 美股加密股收盘涨跌不一,MSTR 跌 4.22%,FIGR 涨 16.33%
- 底特律一男子因向极端组织 ISIS 捐赠比特币而被判 9 年监禁
- 分析师:BTC 短期投资者尚未全面投降,目前判断熊市仍为时过早
- Cango 本周挖矿产出 122.9 枚 BTC,比特币总持仓量突破 6600 枚
- 数据,美国 Hedera 现货 ETF 单日净流出 171 万美元,Litecoin 现货 ETF 无净流入
- 数据:Hyperliquid 平台鲸鱼当前持仓 55.2 亿美元,多空持仓比为 0.87
- Luffa 宣布注册用户数达 100 万,并升级为“下一代创作者与粉丝经济操作系统”
- 哈佛大学截至 Q3 持有 681 万股 IBIT,环比增长 257.48%
- Avenir Group 比特币 ETF 持仓升至 11.89 亿美元再创新高
- 数据:某鲸鱼 4 小时前 3 倍杠杆买入 1,000 枚 BTC
- 数据:“7 Siblings”在 ETH 下跌中再度抄底 3,496 枚 ETH
- Multicoin Capital 流动性基金已投资 ENA,称 Ethena 位于重塑现代金融的三大趋势交汇点
- 加密恐慌贪婪指数跌至 10,创下自 2 月 27 日以来最低水平
- Hyperliquid 上前 ZEC 最大多头扭亏为盈,24 小时浮盈 200 万美元
- 香港证监会将“HKTWeb3”列入可疑虚拟资产交易平台警示名单
- 比特币市占率(BTC.D)单日回落 1%,现报 59.46%
- Eric Trump:如果你无法承受波动,就远离加密货币
- 数据:某巨鲸波段交易 ETH 获利近 300 万美元后,又重新购入近 2 万枚 ETH
- ZEC 逆市上涨触及 645 美元,24 小时涨幅 23.82%
- Tether:迄今已投放 15 亿美元拓展大宗商品贸易融资,探索稳定币+实物资产新模式
- 美国司法部追捕朝鲜不法分子进行虚假 IT 工作和加密货币窃取,扣押 1500 万美元 USDT
- Yala 稳定币 YU 出现类似 USDX 的可疑情况,相关地址以极高利率成本借出 USDC 但始终未还款
- 数据:ETH 长期持有者日抛 4.5 万枚 ETH,以太坊正逼近 3000 美元关键支撑
- 数据:ETH 当前全网 8 小时平均资金费率为 0.0037%
- Cardone Capital 推出房地产+比特币混合基金,租金收益将持续增持 BTC
- 数据:ETH 全网合约持仓量 24h 减少 7.08%
- Multicoin Capital Liquid Fund 投资 Ethena Protocol 的原生代币 ENA
- 数据:6160.07 枚 ETH 从 Wrapped Ether (WETH) 转出,经中转后转至另一匿名地址
- 金融时报: Tether考虑领投德国科技初创企业Neura Robotics约11.6亿美元的融资
- 瑞穗证券维持对 Circle 股票“弱于大盘”评级,将目标股价下调至 70 美元
- 美劳工统计局:2025年9月就业情况将于11月20日发布,10月各州就业与失业情况于11月21日公布
- 数据:过去 24 小时全网爆仓 10.29 亿美元,多单爆仓 8.43 亿美元,空单爆仓 1.85 亿美元
- 洛根:劳动力市场逐步降温,符合降低通胀预期
- 美联储理事米兰:数据支持降息,美联储应更加偏鸽
- 美联储洛根:核心服务业通胀未见向 2% 靠拢迹象
- 美联储洛根:很难支持在12月会议上再次降息
- 米兰:数据支持美联储降息,倾向鸽派政策
比推专栏
更多 >>观点
比推热门文章
- CZ:链上预测市场及 AI 将催生更多预言机需求
- 数据:3 万枚 SOL 从匿名地址转出,经中转后流入 Coinbase
- Aster:S4 回购计划即将开始,S3 回购支出近 4930 万 USDT
- 数据:当前加密恐慌贪婪指数为 11,处于极度恐慌状态
- Gate 研究院:10 月一级市场融资额暴增 104.8%,资本重注预测市场与稳定币基建
- Hourglass:Stable 预存款第二阶段结束,超 1 万个验证钱包贡献了超 11 亿美元的合格存款
- Balancer 黑客开始将 ETH 转移至 Tornado Cash
- Santiment:投资者需警惕底部共识陷阱,真正底部通常在多数人预期价格将继续下探时形成
- 数据:288 枚 BTC 从多个地址转入 Crypto.com,价值约 1881 万美元
- 数据:LTC 涨超 29%,GAS 触及今日新高
比推 APP



