GitHub - manga-data-library/mandala-tsubuyaki: spark + kuromoji + d3.js = 誰でも簡単できる「つぶやきビッグデータ」

#Inazuma - 電

##概要

指定したデータをSparkで分解しカウントし、TOP10をD3.JSのBubble Chartで表示するプログラム。

NHKのつぶやビッグデータのインスパイアなソフトウェアです。

オフラインのデータをSparkで解析したい時のリファレンスコードを目指しています。

##必要要件

JDK 7+
SBT
Ruby

##Usage

sbt boot

sbt

boot inazuma

run [data_file_path]

or

run [data_file_path] [kuromoji_dict_path]

or

run [data_file_path] [kuromoji_dict_path] [rank_take_num]

run ./private/1433194505.txt ./dictionary/anime_2015_2Q.txt 20

translate data csv->d3.json

ruby csv2d3jsjson.rb data.csv > data.json

open browser tubuyaki_bigdata.html

or mac osx shell

open tubuyaki_bigdata.html

メインプログラム情報

inazuma

通常のテキストをパースする場合はこちら。

プログラム内部ではフィルタリングをしていません。

inazumaTwitter

Twitterのストリームを解析する場合はこれを使う。

日本語のみを抽出するようにフィルタリングしています。

アニメ作品タイトルの辞書について

Project-ShangriLaの以下のツールを利用しています。

https://github.com/Project-ShangriLa/CreateDictionary

ShangriLa Anime API

実行例

1000万行のTwitterデータに対して実行した結果

https://gist.github.com/AKB428/5ddcde92197584bc3456

補足情報

HDFSファイルを読み込ませたい時

sbtにHDFSのライブラリを追加してください。

libraryDependencies += "org.apache.hadoop" % "hadoop-client" % "2.6.0"

Sparkクラスタで動作させたい時

sbt assemblyでjarを作ってspark-submitで実行してください。

参照) spark-submitにjarを渡すためにsbt assemblyするためのbuild.sbt

Name		Name	Last commit message	Last commit date
Latest commit History 22 Commits
dictionary		dictionary
project		project
sample1		sample1
sample2		sample2
src/main/scala/mandala/tsubuyaki		src/main/scala/mandala/tsubuyaki
twitter		twitter
urisure		urisure
.gitignore		.gitignore
README.md		README.md
build.sbt		build.sbt
csv2d3jsjson.rb		csv2d3jsjson.rb
tubuyaki_bigdata.html		tubuyaki_bigdata.html

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

メインプログラム情報

inazuma

inazumaTwitter

アニメ作品タイトルの辞書について

実行例

1000万行のTwitterデータに対して実行した結果

補足情報

HDFSファイルを読み込ませたい時

Sparkクラスタで動作させたい時

参考情報

D3.js

About

Releases

Packages

Contributors 2

Languages

manga-data-library/mandala-tsubuyaki

Folders and files

Latest commit

History

Repository files navigation

メインプログラム情報

inazuma

inazumaTwitter

アニメ作品タイトルの辞書について

実行例

1000万行のTwitterデータに対して実行した結果

補足情報

HDFSファイルを読み込ませたい時

Sparkクラスタで動作させたい時

参考情報

D3.js

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages