Aljabri, M., Zagrouba, R., Shaahid, A. et al. Machine learning-based social media bot detection: a comprehensive literature review. Soc. Netw. Anal. Min. 13, 20 (2023).

最近修了したD学生が、博士論文では旧Twitterからのソーシャルボットの検出にBotometerを使ってました。他の手法、特に機械学習を使えば他の論文がreferしてるからという理由だけだったので、モヤモヤしていたんですが、上記論文を別の学生が見つけてきました。
ということで、要約

ボット検出に用いられる特徴カテゴリ(p.5)

特徴については、次の3大カテゴリに分類しています。

ユーザー行動的特徴
投稿頻度・活動時間・フォロワー関係
コンテンツ的特徴
文体、感情、URL出現率、自然言語特徴
ネットワーク的特徴
グラフ中心性、クラスター、リツイート関係

実際には、複数カテゴリの特徴を組み合わせていたりします。

主要研究の特徴利用例
研究特徴カテゴリ手法
Varol et al. (2017)行動+ネットワークランダムフォレスト
Cresci et al. (2017)コンテンツ+行動SVM
Kudugunta & Ferrara (2018)コンテンツ(LSTM)ディープラーニング

で、AIにもっと詳細に出してもらったんだけど…

ソーシャルメディアボット検出手法 比較表
分類手法主な研究主な特徴利点欠点代表的精度(F1 / Accuracy)
MLロジスティック回帰(LR)Varol et al. (2017)基本的な線形分類。特徴量を数値化して重み付け。高速・単純・可解釈性あり非線形関係に弱いF1 ≈ 0.80
MLサポートベクターマシン(SVM)Cresci et al. (2017)マージン最大化で境界を学習。高精度、過学習に強い大規模データに不向きF1 ≈ 0.85
ML決定木Alarifi et al. (2019)分岐ルールに基づく分類。解釈容易、実装簡単ノイズに敏感Accuracy ≈ 0.82
MLランダムフォレスト(RF)Varol et al. (2017)複数の決定木のアンサンブル。高精度、頑健性モデルがブラックボックス化F1 ≈ 0.88
MLXGBoost / LightGBMFerrara (2020)勾配ブースティング最適化。高性能、非線形対応ハイパーパラメータが複雑F1 ≈ 0.89
分類手法主な研究主な特徴利点欠点代表的精度(F1 / Accuracy)
DLCNNKudugunta & Ferrara (2018)投稿テキストの局所的パターンを抽出。文脈の部分特徴に強い長文や時系列には弱いF1 ≈ 0.86
DLRNN / LSTMLee et al. (2019)投稿の時間的連続性をモデル化。時系列依存を考慮可能長期依存に弱いF1 ≈ 0.88
DLBiLSTM + AttentionYang et al. (2020)双方向文脈と重要語の強調。テキスト意味を高精度で捉える学習コスト高F1 ≈ 0.90
DLGNN / GCNZhang et al. (2021)ユーザーネットワーク構造を学習。ソーシャル関係の解析に最適ノード属性依存F1 ≈ 0.90
DLTransformer / BERTFeng et al. (2022)文脈理解に優れた言語モデル。最新の自然言語理解能力計算コストが高いF1 ≈ 0.93
DLGNN + BERT(ハイブリッド)Wang et al. (2023)テキスト+ネットワーク情報を統合。最先端性能、適応力高い複雑で学習コスト大F1 ≈ 0.95

で、要約の結論は、最新では、GNN+BERTがいいって言ってるんだけど…ちょっと待て。DLの後半は、参考文献に載ってない!?ハルシネーション!?CNNのも文献がずれているし、この論文以外からひっぱってきている気がする。

ここは、原文をreferした方がよさそうですね。表でまとまっているので。あと、この論文はattentionやGNNなど、新しめの手法は入っていないので、もっと新しい研究は他のを探した方がよさそう。

ということで、「GNNを用いたソーシャルボット検出論文を教えて!」ときいてみました。

GNN(グラフニューラルネットワーク)を用いたソーシャルボット検出の代表・近年の論文を、要点つきで挙げます(年代順おおむね新→旧)。各項目に公式PDF/プロジェクト等へつながる情報源を添えています。


1) PEGNN: Peripheral-Enhanced Graph Neural Network for Social Bot Detection(2025)
  • 要点:ユーザー周辺(peripheral)ノード情報を強化してボット検出精度を向上するGNN。
  • 貢献:従来GNNが見落としがちな周辺構造を重視して頑健性を改善。
  • 出典:Knowledge-Based Systems(Elsevier)掲載。 (サイエンスダイレクト)
2) MM-HGT-Bot: Fusing Content and Social Relationships via Heterogeneous Graph Transformer(2025)
  • 要点:フォロー関係(情報源選択)とフォロワー関係(潜在影響)の2軸で関係を分解し、Heterogeneous Graph Transformer (HGT) で学習するマルチモーダル手法。
  • 貢献:関係タイプを理論的に分離して性能・解釈性を両立。
  • 出典:EPJ Data Science。 (SpringerOpen)
3) LGB: Language-Model and GNN-Driven Social Bot Detection(2024)
  • 要点:言語モデル(LM)の監督微調整でテキスト表現を高め、GNNと統合するフレームワーク。
  • 貢献:LMとGNNの役割分担を明確化し、グラフ+テキストの相互補完を実証。
  • 出典:arXiv。 (arXiv)
4) CACL: Community-Aware Heterogeneous Graph Contrastive Learning for Bot Detection(2024)
  • 要点コミュニティ構造を取り入れた異種グラフのコントラスト学習で汎化性を強化。
  • 貢献:従来GNNの課題(過平滑化、データスケールの小ささ)へ対処。
  • 出典:arXiv(v3/PDFあり)。 (arXiv)
5) BotSCL: Heterophily-Aware Social Bot Detection via Contrastive Learning(2023)
  • 要点:隣接が“似ていない”**異質性(heterophily)**環境を意識したコントラスト学習。
  • 貢献:ボット検出で頻出の異質グラフに強い表現学習を実現。
  • 出典:arXiv。 (arXiv)
6) BIC: Twitter Bot Detection with Text-Graph Interaction and Co-Training(ACL 2023)
  • 要点:テキストとグラフの相互作用を明示的にモデリングし、co-trainingでラベル不足に対応。
  • 貢献:浅い融合を超え、テキスト×グラフの協調学習で性能向上。
  • 出典:ACL Anthology・arXiv。 (ACLアントロジー)
7) Heterogeneity-Aware Twitter Bot Detection with Relational Graph Transformers(AAAI 2022)
  • 要点:Twittersphereの異種関係を考慮し、Relational Graph Transformerで関係強度を学習。
  • 貢献:「関係の異質性」を明確に扱う先駆的Transformer-on-Graph系。コードも公開。
  • 出典:AAAI本編PDF/AAAIページ/GitHub。 (cdn.aaai.org)
8) BotRGCN: Twitter Bot Detection with Relational Graph Convolutional Networks(2021)
  • 要点:フォロー関係などから異種グラフを構築し、R-GCNでボットを検出。
  • 貢献:コミュニティ的振る舞い・擬装に強い枠組みを提示。コードあり。
  • 出典:arXiv・GitHub。 (arXiv)

参考ベンチマーク/解説
  • TwiBot-22:最大規模のグラフベースTwitterボット検出ベンチマーク(多様なエンティティと関係、アノテーション品質向上)。多くのGNN系研究が評価に使用。 (twibot22.github.io)

使い分けのヒント
  • 異種関係が多い現実グラフ → R-GCN/Relational Graph Transformer 系(BotRGCN、AAAI’22)。
  • **コミュニティや異質性(heterophily)**が支配的 → CACL、BotSCL。
  • テキストの表現力も活かしたい → LGB(LM+GNN)、BIC(Text-Graph相互作用)、MM-HGT-Bot(HGT+関係分解)。
  • 最新傾向:Transformer系GNN、コントラスト学習、LM統合、マルチモーダル化。
論文 / 年使用データセット評価指標
BotRGCN: Twitter Bot Detection with Relational Graph Convolutional Networks (2021)TwiBot-20(大規模Twitter異種グラフ)Accuracy, F1, MCC(Table III 参照)。ar5iv
Heterogeneity-Aware Twitter Bot Detection with Relational Graph Transformers (AAAI 2022)TwiBot-20Accuracy, F1(主結果表に明記)。ar5iv
BIC: Twitter Bot Detection with Text-Graph Interaction and Semantic Consistency (ACL 2023)Cresci-15、TwiBot-20Accuracy, F1(Table 5)。ACLアントロジー
BotSCL: Heterophily-aware Social Bot Detection with Supervised Contrastive Learning (ICPR 2024 / arXiv)TwiBot-20、TwiBot-22(表2で統計量、表4で比較結果)Accuracy, F1, Recall, Precision(「Evaluation Metrics」に明記)。ar5iv
CACL: Community-Aware Heterogeneous Graph Contrastive Learning (2024 / arXiv)Cresci-15、TwiBot-20、TwiBot-22(“Datasets.”で明記)Accuracy, F1, MCC(Table 1等)。ar5iv
LGB: Language Model and Graph Neural Network-Driven Social Bot Detection (2024 / arXiv)TwiBot-22、TwiBot-20(Table II)Accuracy, F1-Score, ROC-AUC(Table II)。ar5iv

ところで、この辺のデータセットってどうなっているんですかね。

代表的データセット一覧と特徴
データセット名年代規模・構成含まれる情報特長・備考
TwiBot-222022約 9,293 万ノード(ユーザー)・1.7 億エッジ(フォロー関係) ai-scholar.tech+2twibot22.github.io+2ユーザー、ツイート、リスト、ハッシュタグノード、フォロー関係、投稿関係など GitHub+2OpenReview+2グラフ構造をしっかり含む大規模ベンチマーク。注釈品質および関係情報を強化した点が特徴 ai-scholar.tech+4ai-scholar.tech+4twibot22.github.io+4
TwiBot-202021229,573 ユーザー、455,958 フォローリンク、3348 万ツイートなど arXiv+2arXiv+2ユーザーのセマンティック情報、属性情報、近傍情報(フォロー/フォロワー) GitHub+3arXiv+3GitHub+3“マルチモーダル”なユーザー情報を含む。グラフ構造を含む初期のベンチマークのひとつ GitHub+4arXiv+4GitHub+4
CRESCI-20172017複数タイプ(正規ユーザー、社交スパムボット、従来型スパム、偽フォロワーなど) service.tib.eu+2GitHub+2ユーザー情報、投稿ログ、ツイート本文など service.tib.eu+2MDPI+2さまざまなボットのタイプを含み、古典的に用いられてきたデータセット service.tib.eu+2GitHub+2
CRESCI-20152015偽フォロワーアカウントと正規アカウントの集合 GitHub+2MDPI+2ユーザー属性データ、フォロー・フォロワー情報、ツイート情報など“フォロワー偽造”を検出する用途で使われることが多い GitHub+2MDPI+2
Caverlee-2011(Content Polluter Dataset)2011約 22,223 ボットアカウント + 19,276 正規アカウント + 大量ツイートログ GitHub+1ユーザーの時系列フォロー数変化、ツイート内容、投稿時間帯など GitHub+1初期の“コンテンツポルター(spam / bot)”研究でよく使われたデータセット GitHub+1

🔍 データセットを選ぶ際の考慮点と課題
  • グラフ構造の有無
     初期のデータセットはグラフ(フォロー関係など)情報を持たないものが多く、GNN系手法を評価するには不十分。TwiBot-20/TwiBot-22 はグラフ情報を含む設計がなされている。 GitHub+4arXiv+4ai-scholar.tech+4
  • 注釈品質(ラベルの正確さ)
     規模拡大とともに手動アノテーションのコスト・誤り率が問題になる。TwiBot-22 などは専門家アノテーションと自動モデル併用でラベル品質を確保する工夫がなされている。 ai-scholar.tech+3ai-scholar.tech+3OpenReview+3
  • スケールと多様性
     ユーザーの属性(地域、興味分野など)、投稿スタイル・関係構造の多様性が高い方が汎化性あるモデル評価に有利。TwiBot-20 は “政治、ビジネス、エンタメ、スポーツ” の 4 ドメインにユーザーを分けている。 GitHub+2arXiv+2
  • 古いデータ vs 最新性
     古いデータセットでは、現在のボットの振る舞いを反映していない可能性。最新のボット技術(模倣、人間らしい投稿、AI生成文など)を評価するには、より新しいデータセットが望ましい。
  • バイアスと汎化性の問題
     データ収集・ラベル付け方法によって特定の特徴に偏る可能性。あるデータセットで高精度でも他データセットに適用すると性能落ちる事例が報告されている。 ACM Digital Library
  • 著作権・API制限・再配布制限
     Twitter のポリシー変更により、全ツイート再配布が制限されることが多い。多くのデータセットは“ユーザーID/ツイートIDのみ公開”などの形態をとる。

普通に尋いたら、2022年までしか出てこず。やはりAPI有償化が影響しているのか。
最新のデータでリクエストしてみました。

比較表(2023–2025)

データセット初出年(体裁)プラットフォーム主タスク規模(概数)構造要素ラベル付与主な用途・備考
MGTAB2023(arXiv)、2025(ジャーナル採録)Twitter/Xボット検出スタンス検出ユーザー155万+/ツイート1.3億+/関係7種ユーザー属性・ツイート特徴・多関係グラフ10,199ユーザーを専門家注釈GNN/RGTなど多関係対応モデルの標準比較、統合評価に最適。arXiv+2GitHub+2
MisBot(Weibo)2024(arXiv/GitHub)Weiboボット検出誤情報検出情報23,622件(誤/真)・94万+ユーザー40万+弱教師注釈多モーダル(テキスト+伝播)・拡散グラフ弱教師でボット/人間ボットと偽情報の相互作用分析、伝播ネットワーク評価。arXiv+1
BotArtist 付随データ2023(arXiv)Twitter/Xボット推定ラベル付与(特徴+予測)約1,092万ユーザー(特徴+予測ラベル)ユーザープロファイル特徴中心(テキストは既存コーパス連携)モデル予測に基づく付与弱教師学習・特徴比較・大規模スクリーニングに有用。arXiv

\ 最新情報をチェック /

コメントを残す