最近修了したD学生が、博士論文では旧Twitterからのソーシャルボットの検出にBotometerを使ってました。他の手法、特に機械学習を使えば他の論文がreferしてるからという理由だけだったので、モヤモヤしていたんですが、上記論文を別の学生が見つけてきました。
ということで、要約
ボット検出に用いられる特徴カテゴリ(p.5)
特徴については、次の3大カテゴリに分類しています。
ユーザー行動的特徴
投稿頻度・活動時間・フォロワー関係
コンテンツ的特徴
文体、感情、URL出現率、自然言語特徴
ネットワーク的特徴
グラフ中心性、クラスター、リツイート関係
実際には、複数カテゴリの特徴を組み合わせていたりします。
主要研究の特徴利用例
| 研究 | 特徴カテゴリ | 手法 |
|---|---|---|
| Varol et al. (2017) | 行動+ネットワーク | ランダムフォレスト |
| Cresci et al. (2017) | コンテンツ+行動 | SVM |
| Kudugunta & Ferrara (2018) | コンテンツ(LSTM) | ディープラーニング |
で、AIにもっと詳細に出してもらったんだけど…
ソーシャルメディアボット検出手法 比較表
| 分類 | 手法 | 主な研究 | 主な特徴 | 利点 | 欠点 | 代表的精度(F1 / Accuracy) |
|---|---|---|---|---|---|---|
| ML | ロジスティック回帰(LR) | Varol et al. (2017) | 基本的な線形分類。特徴量を数値化して重み付け。 | 高速・単純・可解釈性あり | 非線形関係に弱い | F1 ≈ 0.80 |
| ML | サポートベクターマシン(SVM) | Cresci et al. (2017) | マージン最大化で境界を学習。 | 高精度、過学習に強い | 大規模データに不向き | F1 ≈ 0.85 |
| ML | 決定木 | Alarifi et al. (2019) | 分岐ルールに基づく分類。 | 解釈容易、実装簡単 | ノイズに敏感 | Accuracy ≈ 0.82 |
| ML | ランダムフォレスト(RF) | Varol et al. (2017) | 複数の決定木のアンサンブル。 | 高精度、頑健性 | モデルがブラックボックス化 | F1 ≈ 0.88 |
| ML | XGBoost / LightGBM | Ferrara (2020) | 勾配ブースティング最適化。 | 高性能、非線形対応 | ハイパーパラメータが複雑 | F1 ≈ 0.89 |
| 分類 | 手法 | 主な研究 | 主な特徴 | 利点 | 欠点 | 代表的精度(F1 / Accuracy) |
|---|---|---|---|---|---|---|
| DL | CNN | Kudugunta & Ferrara (2018) | 投稿テキストの局所的パターンを抽出。 | 文脈の部分特徴に強い | 長文や時系列には弱い | F1 ≈ 0.86 |
| DL | RNN / LSTM | Lee et al. (2019) | 投稿の時間的連続性をモデル化。 | 時系列依存を考慮可能 | 長期依存に弱い | F1 ≈ 0.88 |
| DL | BiLSTM + Attention | Yang et al. (2020) | 双方向文脈と重要語の強調。 | テキスト意味を高精度で捉える | 学習コスト高 | F1 ≈ 0.90 |
| DL | GNN / GCN | Zhang et al. (2021) | ユーザーネットワーク構造を学習。 | ソーシャル関係の解析に最適 | ノード属性依存 | F1 ≈ 0.90 |
| DL | Transformer / BERT | Feng et al. (2022) | 文脈理解に優れた言語モデル。 | 最新の自然言語理解能力 | 計算コストが高い | F1 ≈ 0.93 |
| DL | GNN + BERT(ハイブリッド) | Wang et al. (2023) | テキスト+ネットワーク情報を統合。 | 最先端性能、適応力高い | 複雑で学習コスト大 | F1 ≈ 0.95 |
で、要約の結論は、最新では、GNN+BERTがいいって言ってるんだけど…ちょっと待て。DLの後半は、参考文献に載ってない!?ハルシネーション!?CNNのも文献がずれているし、この論文以外からひっぱってきている気がする。
ここは、原文をreferした方がよさそうですね。表でまとまっているので。あと、この論文はattentionやGNNなど、新しめの手法は入っていないので、もっと新しい研究は他のを探した方がよさそう。
ということで、「GNNを用いたソーシャルボット検出論文を教えて!」ときいてみました。
GNN(グラフニューラルネットワーク)を用いたソーシャルボット検出の代表・近年の論文を、要点つきで挙げます(年代順おおむね新→旧)。各項目に公式PDF/プロジェクト等へつながる情報源を添えています。
1) PEGNN: Peripheral-Enhanced Graph Neural Network for Social Bot Detection(2025)
- 要点:ユーザー周辺(peripheral)ノード情報を強化してボット検出精度を向上するGNN。
- 貢献:従来GNNが見落としがちな周辺構造を重視して頑健性を改善。
- 出典:Knowledge-Based Systems(Elsevier)掲載。 (サイエンスダイレクト)
2) MM-HGT-Bot: Fusing Content and Social Relationships via Heterogeneous Graph Transformer(2025)
- 要点:フォロー関係(情報源選択)とフォロワー関係(潜在影響)の2軸で関係を分解し、Heterogeneous Graph Transformer (HGT) で学習するマルチモーダル手法。
- 貢献:関係タイプを理論的に分離して性能・解釈性を両立。
- 出典:EPJ Data Science。 (SpringerOpen)
3) LGB: Language-Model and GNN-Driven Social Bot Detection(2024)
- 要点:言語モデル(LM)の監督微調整でテキスト表現を高め、GNNと統合するフレームワーク。
- 貢献:LMとGNNの役割分担を明確化し、グラフ+テキストの相互補完を実証。
- 出典:arXiv。 (arXiv)
4) CACL: Community-Aware Heterogeneous Graph Contrastive Learning for Bot Detection(2024)
- 要点:コミュニティ構造を取り入れた異種グラフのコントラスト学習で汎化性を強化。
- 貢献:従来GNNの課題(過平滑化、データスケールの小ささ)へ対処。
- 出典:arXiv(v3/PDFあり)。 (arXiv)
5) BotSCL: Heterophily-Aware Social Bot Detection via Contrastive Learning(2023)
- 要点:隣接が“似ていない”**異質性(heterophily)**環境を意識したコントラスト学習。
- 貢献:ボット検出で頻出の異質グラフに強い表現学習を実現。
- 出典:arXiv。 (arXiv)
6) BIC: Twitter Bot Detection with Text-Graph Interaction and Co-Training(ACL 2023)
- 要点:テキストとグラフの相互作用を明示的にモデリングし、co-trainingでラベル不足に対応。
- 貢献:浅い融合を超え、テキスト×グラフの協調学習で性能向上。
- 出典:ACL Anthology・arXiv。 (ACLアントロジー)
7) Heterogeneity-Aware Twitter Bot Detection with Relational Graph Transformers(AAAI 2022)
- 要点:Twittersphereの異種関係を考慮し、Relational Graph Transformerで関係強度を学習。
- 貢献:「関係の異質性」を明確に扱う先駆的Transformer-on-Graph系。コードも公開。
- 出典:AAAI本編PDF/AAAIページ/GitHub。 (cdn.aaai.org)
8) BotRGCN: Twitter Bot Detection with Relational Graph Convolutional Networks(2021)
- 要点:フォロー関係などから異種グラフを構築し、R-GCNでボットを検出。
- 貢献:コミュニティ的振る舞い・擬装に強い枠組みを提示。コードあり。
- 出典:arXiv・GitHub。 (arXiv)
参考ベンチマーク/解説
- TwiBot-22:最大規模のグラフベースTwitterボット検出ベンチマーク(多様なエンティティと関係、アノテーション品質向上)。多くのGNN系研究が評価に使用。 (twibot22.github.io)
使い分けのヒント
- 異種関係が多い現実グラフ → R-GCN/Relational Graph Transformer 系(BotRGCN、AAAI’22)。
- **コミュニティや異質性(heterophily)**が支配的 → CACL、BotSCL。
- テキストの表現力も活かしたい → LGB(LM+GNN)、BIC(Text-Graph相互作用)、MM-HGT-Bot(HGT+関係分解)。
- 最新傾向:Transformer系GNN、コントラスト学習、LM統合、マルチモーダル化。
| 論文 / 年 | 使用データセット | 評価指標 |
|---|
| BotRGCN: Twitter Bot Detection with Relational Graph Convolutional Networks (2021) | TwiBot-20(大規模Twitter異種グラフ) | Accuracy, F1, MCC(Table III 参照)。ar5iv |
| Heterogeneity-Aware Twitter Bot Detection with Relational Graph Transformers (AAAI 2022) | TwiBot-20 | Accuracy, F1(主結果表に明記)。ar5iv |
| BIC: Twitter Bot Detection with Text-Graph Interaction and Semantic Consistency (ACL 2023) | Cresci-15、TwiBot-20 | Accuracy, F1(Table 5)。ACLアントロジー |
| BotSCL: Heterophily-aware Social Bot Detection with Supervised Contrastive Learning (ICPR 2024 / arXiv) | TwiBot-20、TwiBot-22(表2で統計量、表4で比較結果) | Accuracy, F1, Recall, Precision(「Evaluation Metrics」に明記)。ar5iv |
| CACL: Community-Aware Heterogeneous Graph Contrastive Learning (2024 / arXiv) | Cresci-15、TwiBot-20、TwiBot-22(“Datasets.”で明記) | Accuracy, F1, MCC(Table 1等)。ar5iv |
| LGB: Language Model and Graph Neural Network-Driven Social Bot Detection (2024 / arXiv) | TwiBot-22、TwiBot-20(Table II) | Accuracy, F1-Score, ROC-AUC(Table II)。ar5iv |
ところで、この辺のデータセットってどうなっているんですかね。
代表的データセット一覧と特徴
| データセット名 | 年代 | 規模・構成 | 含まれる情報 | 特長・備考 |
|---|---|---|---|---|
| TwiBot-22 | 2022 | 約 9,293 万ノード(ユーザー)・1.7 億エッジ(フォロー関係) ai-scholar.tech+2twibot22.github.io+2 | ユーザー、ツイート、リスト、ハッシュタグノード、フォロー関係、投稿関係など GitHub+2OpenReview+2 | グラフ構造をしっかり含む大規模ベンチマーク。注釈品質および関係情報を強化した点が特徴 ai-scholar.tech+4ai-scholar.tech+4twibot22.github.io+4 |
| TwiBot-20 | 2021 | 229,573 ユーザー、455,958 フォローリンク、3348 万ツイートなど arXiv+2arXiv+2 | ユーザーのセマンティック情報、属性情報、近傍情報(フォロー/フォロワー) GitHub+3arXiv+3GitHub+3 | “マルチモーダル”なユーザー情報を含む。グラフ構造を含む初期のベンチマークのひとつ GitHub+4arXiv+4GitHub+4 |
| CRESCI-2017 | 2017 | 複数タイプ(正規ユーザー、社交スパムボット、従来型スパム、偽フォロワーなど) service.tib.eu+2GitHub+2 | ユーザー情報、投稿ログ、ツイート本文など service.tib.eu+2MDPI+2 | さまざまなボットのタイプを含み、古典的に用いられてきたデータセット service.tib.eu+2GitHub+2 |
| CRESCI-2015 | 2015 | 偽フォロワーアカウントと正規アカウントの集合 GitHub+2MDPI+2 | ユーザー属性データ、フォロー・フォロワー情報、ツイート情報など | “フォロワー偽造”を検出する用途で使われることが多い GitHub+2MDPI+2 |
| Caverlee-2011(Content Polluter Dataset) | 2011 | 約 22,223 ボットアカウント + 19,276 正規アカウント + 大量ツイートログ GitHub+1 | ユーザーの時系列フォロー数変化、ツイート内容、投稿時間帯など GitHub+1 | 初期の“コンテンツポルター(spam / bot)”研究でよく使われたデータセット GitHub+1 |
🔍 データセットを選ぶ際の考慮点と課題
- グラフ構造の有無
初期のデータセットはグラフ(フォロー関係など)情報を持たないものが多く、GNN系手法を評価するには不十分。TwiBot-20/TwiBot-22 はグラフ情報を含む設計がなされている。 GitHub+4arXiv+4ai-scholar.tech+4 - 注釈品質(ラベルの正確さ)
規模拡大とともに手動アノテーションのコスト・誤り率が問題になる。TwiBot-22 などは専門家アノテーションと自動モデル併用でラベル品質を確保する工夫がなされている。 ai-scholar.tech+3ai-scholar.tech+3OpenReview+3 - スケールと多様性
ユーザーの属性(地域、興味分野など)、投稿スタイル・関係構造の多様性が高い方が汎化性あるモデル評価に有利。TwiBot-20 は “政治、ビジネス、エンタメ、スポーツ” の 4 ドメインにユーザーを分けている。 GitHub+2arXiv+2 - 古いデータ vs 最新性
古いデータセットでは、現在のボットの振る舞いを反映していない可能性。最新のボット技術(模倣、人間らしい投稿、AI生成文など)を評価するには、より新しいデータセットが望ましい。 - バイアスと汎化性の問題
データ収集・ラベル付け方法によって特定の特徴に偏る可能性。あるデータセットで高精度でも他データセットに適用すると性能落ちる事例が報告されている。 ACM Digital Library - 著作権・API制限・再配布制限
Twitter のポリシー変更により、全ツイート再配布が制限されることが多い。多くのデータセットは“ユーザーID/ツイートIDのみ公開”などの形態をとる。
普通に尋いたら、2022年までしか出てこず。やはりAPI有償化が影響しているのか。
最新のデータでリクエストしてみました。
比較表(2023–2025)
| データセット | 初出年(体裁) | プラットフォーム | 主タスク | 規模(概数) | 構造要素 | ラベル付与 | 主な用途・備考 |
|---|---|---|---|---|---|---|---|
| MGTAB | 2023(arXiv)、2025(ジャーナル採録) | Twitter/X | ボット検出+スタンス検出 | ユーザー155万+/ツイート1.3億+/関係7種 | ユーザー属性・ツイート特徴・多関係グラフ | 10,199ユーザーを専門家注釈 | GNN/RGTなど多関係対応モデルの標準比較、統合評価に最適。arXiv+2GitHub+2 |
| MisBot(Weibo) | 2024(arXiv/GitHub) | ボット検出+誤情報検出 | 情報23,622件(誤/真)・94万+ユーザー・40万+弱教師注釈 | 多モーダル(テキスト+伝播)・拡散グラフ | 弱教師でボット/人間 | ボットと偽情報の相互作用分析、伝播ネットワーク評価。arXiv+1 | |
| BotArtist 付随データ | 2023(arXiv) | Twitter/X | ボット推定ラベル付与(特徴+予測) | 約1,092万ユーザー(特徴+予測ラベル) | ユーザープロファイル特徴中心(テキストは既存コーパス連携) | モデル予測に基づく付与 | 弱教師学習・特徴比較・大規模スクリーニングに有用。arXiv |
