hive tools in nhn japan #hadoopreading
DESCRIPTION
TRANSCRIPT
Hive Tools in NHN JapanHadoop Source Code Reading Vol.92012/05/30@tagomoris (TAGOMORI Satoshi)
12年5月30日水曜日
@tagomorisNHN Japan Corp
Web Service Division
12年5月30日水曜日
Hive in NHN Japan
Reporting of access log (not analysis)
Pageviews and/or Unique Users?
Accesses under specified condition?
Hey, what numbers of accesses for our new features?
new bot accesses? any troubles?
12年5月30日水曜日
SELECT yyyymmdd, count(is_pc(pa)) as pc, count(is_smartphone(pa)) as smartphone, count(is_mobilephone(pa)) as mobilephoneFROM ( SELECT yyyymmdd, parse_agent(agent) as pa FROM access_log WHERE service='__SERVICE__' AND (yyyymmdd='__1DAYS_AGO__' OR yyyymmdd='__2DAYS_AGO__') AND NOT flag ) xGROUP BY yyyymmddORDER BY yyyymmdd LIMIT 2
12年5月30日水曜日
12年5月30日水曜日
Today's topic
For Fluentd,See 'Software Design'
2012/06
12年5月30日水曜日
Hadoop / HDFS
FluentdCluster
stream
Hoop Server (HttpFs)
stream
backup stream
realtime monitoring
Hive Server
Users(Web Browser)
Shib(Hive Client Web Application)
ShibUI(Query Management System)
12年5月30日水曜日
Why Hive?Handmade MapReduce: Noooooooooooooooo
Pig? Hive?
All we loves 'xQL' like 'SQL'...
FORCE to throw away all queries
"処理を書き捨てる勇気"
We are likely to maintain 'programs' (like pig script)
With chainging data, BAD to maintain how to handle data
12年5月30日水曜日
Client Tools?
'hive' command sucks
Hue (Beeswax for Hive)?
we want end-users to run 'SELECT' only.
we want HTTP API to work with another systems
Periodic query execution, and graph plotting
Miscellaneous extensions we want (and ease to write)
12年5月30日水曜日
Copy&Paste Based Query Management
Non-refered QueriesMUST DIE
12年5月30日水曜日
Hadoop / HDFS
FluentdCluster
stream
Hoop Server (HttpFs)
stream
backup stream
realtime monitoring
Hive Server
Users(Web Browser)
Shib(Hive Client Web Application)
ShibUI(Query Management System)
12年5月30日水曜日
Hadoop / HDFS
FluentdCluster
stream
Hoop Server (HttpFs)
stream
backup stream
realtime monitoring
Hive Server
Users(Web Browser)
Shib(Hive Client Web Application)
ShibUI(Query Management System)
12年5月30日水曜日
Shibhttps://github.com/tagomoris/shib
Hive Client Web Application
Run 'SELECT' queries only
Store results of queries
Provides HTTP API:
to run queries
to get result data of queries
12年5月30日水曜日
Hadoop / HDFS
FluentdCluster
stream
Hoop Server (HttpFs)
stream
backup stream
realtime monitoring
Hive Server
Users(Web Browser)
Shib(Hive Client Web Application)
ShibUI(Query Management System)
12年5月30日水曜日
Hadoop / HDFS
Hive Server
Users(Web Browser)
Shib (node.js)
Thrift
HTTP/Ajax
DataStore (Kyoto Tycoon)
12年5月30日水曜日
12年5月30日水曜日
ShibUI(non-disclosured application)
Web Front-end of Shib
Daily/Weekly/Monthly Query Management System
Graph plotting of query results
Record log to check queries no one views...
Query Builder (for hive-unfriendly engineers/directors)
(Under construction)
12年5月30日水曜日
Hadoop / HDFS
FluentdCluster
stream
Hoop Server (HttpFs)
stream
backup stream
realtime monitoring
Hive Server
Users(Web Browser)
Shib(Hive Client Web Application)
ShibUI(Query Management System)
12年5月30日水曜日
Hadoop / HDFS
FluentdCluster
stream
Hoop Server (HttpFs)
stream
backup stream
realtime monitoring
Hive Server
Users(Web Browser)
Shib(Hive Client Web Application)
ShibUI(Query Management System)
12年5月30日水曜日
Hadoop / HDFS
Hive Server
Users(Web Browser)
Shib (node.js)
HTTP/Ajax ShibUI(Perl/Plack Web Application: Kossy)
MySQLHRForecast
HTTP
12年5月30日水曜日
12年5月30日水曜日
12年5月30日水曜日
12年5月30日水曜日
What to do nextMapReduce Job management
check query to run correctly
kill queries
Huahin Manager by @ryu_kobayashi
Hadoop MapReduce Job Manager over HTTP
http://huahin.github.com/huahin-manager/
Shib version up
node.js 0.4 based -> 0.6 based12年5月30日水曜日
Questions?
12年5月30日水曜日
Thanks!
12年5月30日水曜日