特徴語とは (2018/10/9)
地方議会会議録コーパスプロジェクトは、議員活動の実体を可視化する試みの一つとして議会発言特徴語*リストを作成しています。
政治山が保有する選挙・候補者情報と研究データを関連付けることで、ユーザーに対してより多くの有益な情報を提供できないか試行しています。
ご意見等ございましたら、問い合わせフォームよりご連絡ください。
*議員発言特徴語について
宇都宮共和大学シティライフ学部 高丸圭一
議員発言特徴語とは,簡単にいうと「ある議員が他の議員よりも多く発言した単語」のことです。その議員が何に注力していたかを表していると考えることができます。議員発言特徴語は、TF・IDF法という技術により,議会会議録に記録された発言のうち,(1)その議員が多く使用していて,(2)その単語を使用した議員が少ない単語のスコアが高くなるような計算によって選ばれています。
Step 1議会会議録(本会議)から、発言者別に発言文を取り出す。
【例】平成26年度栃木県議会第324回臨時会議06月03日-03号/福田富一 知事
Step 2単語分割を行う。
形態素解析という技術を用いて、発言文を単語単位に分割します。形態素解析を行うと,上段の短単位の例のように「少子高齢化」は「少子」「高齢」「化」の3語に分割され,「地域コミュニティ」は「地域」「コミュニティ」の2語に分割されます。このまま「少子」や「地域」といった語の頻度を数えても,発言の特徴を捉えることは難しいため,名詞連続(複合名詞)をひとまとめにして取り扱います。今回の特徴語の計算では、長単位と呼ばれる単位に文を区切り、「名詞-普通名詞-一般」を対象とします。
- 形態素解析器:meCab
- 形態素解析辞書:unidic
- 中・長単位解析ツール:Comainu
【例】
※長単位とは…「長単位は構文的な機能に着目した,各媒体・各ジャンルの資料的な性格を反映する単位であり,言語的特徴を解明するという目的にかなうものと言える。」
【参考文献】 小椋秀樹,冨士池優美「第4章 形態論情報」国立国語研究所コーパス開発センター編『現代日本語書き言葉均衡コーパス利用の手引』,2011
Step 3発言者ごとに単語(長単位で解析した「名詞-普通名詞-一般」)の使用頻度TF(Term Frequency)を求める。
【例】使用頻度TF(作例)
Step4各単語のIDF(Inversed Document Frequency)値を算出する。
【例】IDF(作例)
- 「予算」 3人全員が使用している log(3/3)+1 = 1.00
- 「待機児童」 3人中1人だけ使用している log(3/1)+1 = 2.10
- 「まちづくり」 3人中2人が使用している log(3/2)+1 = 1.41
Step5議員ごとに発言に含まれる全単語(長単位で解析した「名詞-普通名詞-一般」)のTF×IDFを計算し、スコアの高い順に並べる。スコアの高い語が「議員発言特徴語」である)
【例】TF・IDF値(作例)
- A議員の特徴語 ①待機児童 ②予算
- B議員の特徴語 ①まちづくり ②予算
- C議員の特徴語 ①予算 ②まちづくり
TFにIDFを乗じることで,他の議員が発言していないその議員の特徴語を客観的な指標によって見つけることができます。例えばA議員の単語使用頻度は①「予算」→②「待機児童」の順ですが,「待機児童」は他の議員が使用しておらずIDF値が高いので,TF・IDFに基づく順位では①「待機児童」→②「予算」になります。