2
Most read
5
Most read
9
Most read
Jaccard係数の計算式(1)
KH CoderではJaccard係数を多用しています。たと
えば語Aと語Bの共起の程度をJaccard係数で測る計
算式は以下のようになります。
「語Aを含み」なおかつ「語Bを含む」文書の数
「語Aを含む」か「語Bを含む」か1方でも当てはまる文書の数
図解にするとより分かりやすく→
語Aを含む文書 語Bを含む文書
(a) 「語Aを含み」なおかつ「語Bを含む」文書
語Aを含む文書 語Bを含む文書
(b) 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書
(a) 「語Aを含み」なおかつ「語Bを含む」文書
語Aを含む文書 語Bを含む文書
(b) 「語Aを含む」か「語Bを含む」か1方でも当てはまる文書
(a) 「語Aを含み」なおかつ「語Bを含む」文書
語Aを含む文書 語Bを含む文書
(b)の中での(a)の割合 = (a)÷(b) がJaccard係数!
もし単純に数をかぞえると?
語Cを含む文書
• 単純に共起する数をかぞえると、語Aの有無に関係
なくどこにでも多く出現する語Cが上位に。
• Jaccard係数では割合を見るので、語Cは下位になり、
語Aがある時に特によく出てくる共起語が上位に
語Aを含む文書
それでも、ある程度は数も必要
語Dを含む文書
• 語Dはほぼすべて語Aと共起しているが、数が少ない
ので「語Aが出てくるときには語Dもよく出てくる」
とは言えない
• Jaccard係数では割合を見るので語Dも下位に
→ 語CやDを取り除きつつ共起語を探すのがJaccard係数
語Aを含む文書
どちらも含まない文書は無視
• 一部の係数は、(c) 語Aも語Bも含まない文書がたく
さんあると、語Aと語Bの類似度が高いと見なす
• 計量テキスト分析では、(c)の文書は常に大量に存在
するので、(c)を無視するJaccard係数を採用
語Aを含む文書 語Bを含む文書
すべての文書
(c) 語Aも語Bも含まない文書
ところで「文書」ってなに?
• 設定を変えなければ(デフォルトでは)
– Excel・CSVデータの場合は、1つのセルが1つの「文書」
– テキストデータの場合は、1つの段落(改行で区切れられ
た部分)が1つの「文書」
• 分析時に「集計単位」の設定を「文」に変更すれば、
1つの文を1つの「文書」と見なせる
• KH CoderではH1からH5による見出しを加えることで、
節・章・部など様々な単位での分析が可能

More Related Content

PDF
Jaccard係数の計算式と特徴(2)
PDF
『バックドア基準の入門』@統数研研究集会
PPTX
トピックモデルの基礎と応用
PDF
フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st
PDF
統計的係り受け解析入門
PDF
MICの解説
PDF
ノンパラベイズ入門の入門
PDF
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
 
Jaccard係数の計算式と特徴(2)
『バックドア基準の入門』@統数研研究集会
トピックモデルの基礎と応用
フリーソフトウェア「KH Coder」を使った計量テキスト分析 ―手軽なマウス操作による分析からプラグイン作成まで― #TokyoWebmining 41st
統計的係り受け解析入門
MICの解説
ノンパラベイズ入門の入門
MCMCサンプルの使い方 ~見る・決める・探す・発生させる~
 

What's hot (20)

PDF
KH Coder 2 チュートリアル(スライド版)
PDF
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
PDF
グラフィカルモデル入門
PDF
LDA入門
PDF
機械学習モデルの判断根拠の説明
PDF
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
PDF
DID, Synthetic Control, CausalImpact
PDF
オントロジーとは?
PPTX
【解説】 一般逆行列
PDF
データ解析8 主成分分析の応用
PDF
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
PDF
機械学習モデルの判断根拠の説明(Ver.2)
PPT
Gurobi python
PDF
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
PDF
トピックモデルの評価指標 Perplexity とは何なのか?
PDF
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
PDF
スペクトラル・クラスタリング
PPTX
変分ベイズ法の説明
PDF
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
KH Coder 2 チュートリアル(スライド版)
「内積が見えると統計学も見える」第5回 プログラマのための数学勉強会 発表資料
グラフィカルモデル入門
LDA入門
機械学習モデルの判断根拠の説明
Private Recommender Systems: How Can Users Build Their Own Fair Recommender S...
DID, Synthetic Control, CausalImpact
オントロジーとは?
【解説】 一般逆行列
データ解析8 主成分分析の応用
トピックモデルの評価指標 Coherence 研究まとめ #トピ本
機械学習モデルの判断根拠の説明(Ver.2)
Gurobi python
深層学習による自然言語処理入門: word2vecからBERT, GPT-3まで
トピックモデルの評価指標 Perplexity とは何なのか?
基礎からのベイズ統計学 輪読会資料 第4章 メトロポリス・ヘイスティングス法
最近のDeep Learning (NLP) 界隈におけるAttention事情
スペクトラル・クラスタリング
変分ベイズ法の説明
数学カフェ 確率・統計・機械学習回 「速習 確率・統計」
Ad

Viewers also liked (20)

PDF
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―
DOC
النص الكامل لمدونة الشغل
PDF
R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京)
PDF
GraphX Advent Calendar Day17
PPTX
おそ松さんとラブライブ!の2ちゃんねるスレ分析
PPTX
ライトノベル市場の現状分析
PPTX
日本ゲーム産業史(関西大学講演)Up用
PPTX
電子書籍アプリレビューのテキストマイニング分析
PPTX
「なろう系」の特徴は?
PDF
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
PPTX
Jap2017 ss65 優しいベイズ統計への導入法
PDF
広告プラットフォーム立ち上げ百鬼夜行
PDF
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
PDF
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
PDF
マッチングサービスにおけるKPIの話
PPTX
アドテクスタジオのデータ分析基盤について
PDF
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
PDF
エクセルでテキストマイニング TTM2HADの使い方
PDF
Apache Kuduを使った分析システムの裏側
PDF
Active Learning 入門
Rファイルの保存と活用1―KH Coderによる対応分析の結果のエクスポートと活用―
النص الكامل لمدونة الشغل
R言語による アソシエーション分析-組合せ・事象の規則を解明する-(第5回R勉強会@東京)
GraphX Advent Calendar Day17
おそ松さんとラブライブ!の2ちゃんねるスレ分析
ライトノベル市場の現状分析
日本ゲーム産業史(関西大学講演)Up用
電子書籍アプリレビューのテキストマイニング分析
「なろう系」の特徴は?
Lyric Jumper:アーティストごとの歌詞トピックの傾向に基づく歌詞探索サービス
Jap2017 ss65 優しいベイズ統計への導入法
広告プラットフォーム立ち上げ百鬼夜行
多腕バンディット問題: 定式化と応用 (第13回ステアラボ人工知能セミナー)
日本音響学会2017秋 ビギナーズセミナー "深層学習を深く学習するための基礎"
マッチングサービスにおけるKPIの話
アドテクスタジオのデータ分析基盤について
VentureCafe_第2回:SIerでのキャリアパスを考える_ござ先輩発表資料 V1.0
エクセルでテキストマイニング TTM2HADの使い方
Apache Kuduを使った分析システムの裏側
Active Learning 入門
Ad

More from khcoder (7)

PDF
KH Coder 3 チュートリアル(スライド版)
PDF
【旧版】KH Coder 3 チュートリアル(スライド版)
PDF
Quick Start Tutorial of KH Coder 3
PDF
[OUTDATED] Quick Start Tutorial of KH Coder 3
PDF
Executing SQL Queries and Making Plugins
PDF
Example of Using R #1: Exporting the Result of Correspondence Analysis
PDF
Quick Start Tutorial of KH Coder 2: Quantitative Content Analysis or Text Min...
KH Coder 3 チュートリアル(スライド版)
【旧版】KH Coder 3 チュートリアル(スライド版)
Quick Start Tutorial of KH Coder 3
[OUTDATED] Quick Start Tutorial of KH Coder 3
Executing SQL Queries and Making Plugins
Example of Using R #1: Exporting the Result of Correspondence Analysis
Quick Start Tutorial of KH Coder 2: Quantitative Content Analysis or Text Min...

Jaccard係数の計算式と特徴(1)