史上最速のandroid

史上最速の AndroidDroidKaigi2016

僻地のプログラマ kmt-t

自己紹介ハンドルネーム

@kmt_t 職業

業務系プログラマ元組み込み系

専門分野画像処理、ファイルシステム、仮想マシン自然言語処理、ディープラーニングは最近下火

定例連絡ワールドワイドでオンリーワンです ART も内容的に半分ぐらい同じです

「 Android の仮想マシン Dalvik 編」発売中！

ART 本執筆進捗 ART の変更が頻繁なため手が出せず最近気力充実してるのでそろそろ本気出すちなみに本執筆終わると精神崩壊レベルで燃え尽きます

「 Android の仮想マシン ART 編」は必ず出します！

今日話すこと前回の DroidKaigi は難しかったようなので反省今回はアプリケーションに近いところで話します仮想マシン依存の最適化の話です

今日話すこと前回の DroidKaigi は難しかったようなので反省今回はアプリケーションに近いところで話します仮想マシン依存の最適化の話です注意！ART のコードが頻繁に変わるので将来的に正しい保証はありません

今日のネタ一覧1. 誰も知らないループのオーバヘッド2. 遅い命令と速い命令3. JNI の秘密

本日の計測環境

• https://www.genymotion.com/• x86/Android エミュレータ• Android 6.0

GenyMotion

• Intel core i5 6400T (Skylake)• メモリ 32GB

PC 環境

解析ツール• DEX ファイル解析• バイトコードレベルの解析• 今回は使いません

dexdump

• OAT ファイル解析• コンパイルされたバイトコード、ネイティブコードの解析• 今回はこっちを使います

oatdump

ネタその 1誰も知らないループのオーバヘッドこんな簡単なことに誰も気が付かない

何の変哲もないループint N = 100000000;int ret = 0;for (int i = 0; i < N; ++i) { ret += i;}

ベンチマーク

何となくアンロールしてみるアンロールとは複数回のループをベタで展開することint ret = 0;for (int i = 0; i < N; i += 8) { ret += i; ret += i; ret += i; ret += i; ret += i; ret += i; ret += i; ret += i;}

ベンチマークアンロール前 (518ms) アンロール後 (331ms)

あれ、結構効果ある単純なアンロールが結構効きますね

ネイティブコードを見てみる ( 長いので割愛 ) ( ループの度に GC チェックを実行 )

こいつを生成してるところループの度に謎の処理が入る

art/compiler/dex/quick/mir_to_lir.cc

case Instruction::IF_EQ:case Instruction::IF_NE:case Instruction::IF_LT:case Instruction::IF_GE:case Instruction::IF_GT:case Instruction::IF_LE: { if (mir_graph_->IsBackEdge(bb, bb->taken) || mir_graph_->IsBackEdge(bb, bb->fall_through)) { GenSuspendTest(opt_flags); } LIR* taken = &label_list[bb->taken]; GenCompareAndBranch(opcode, rl_src[0], rl_src[1], taken); break; }

こいつの正体後ろ向き ( 繰り返し ) のジャンプで生成される正体は GC チェックの処理 GC チェックは GC ポイントで実行される GC ポイントでは GC マップというガイド情報が用意される GC マップはコンパイル時に生成されるため、効率が良い

この例の教訓 ART のループは GC チェックが実行されるきわめて小さいループではアンロールが効く GC が呼ばれるのでループでオブジェクトの生成を避ける

ネタその 2遅い命令と速い命令バイトコードを読めると三文の得

遅い命令と速い命令バイトコードには似た処理を行う遅い命令と速い命令があるバイトコード命令ごとの処理時間を見積もるには？バイトコード命令ごとの処理時間を合算すればよいインタープリタのソースを読むと実行速度のイメージが沸きます！

ART のアーキテクチャ復習仮想マシンレジスタに値を入れて計算ローカル変数は仮想マシンレジスタに保存される

MOVE と MOVE_LONG 仮想マシンレジスタの値をコピーするバイトコード命令 MOVE は 32ビット MOVE_LONG は 64ビット ART の仮想マシンレジスタは幅は 32ビット 64ビットリードは仮想マシンレジスタを 2 回リードする x86 でも 2 回リードする double型も同様そのため浮動小数点の計算は float のほうが速い

IF_EQ と IF_EQZ とそのバリエーション IF_EQ はふたつの仮想マシンレジスタの値が一致すると分岐 IF_EQZ は仮想マシンレジスタの値と 0 が一致すると分岐 IF_EQ は x86 の cmp 命令に変換 IF_EQZ は x86 の test 命令に変換 IF_EQZ の方が使用する CPU レジスタが少ないので速くなる

いつかベンチマーク取って公開します今回は全バイトコード命令のベンチマークを取る予定でした資料作成の時間の関係で作れませんでしたいつか実施して結果を公開します…

ネタその 3JNI の秘密

OSS に情報漏洩はない

JNI の秘密 Dalvik では組み込みメソッドがあり、一部のフレームワークのメソッドは仮想マシン内にネイティブで実装されていた組み込みメソッドは JNI と違い呼び出しが速い ART では組み込み関数は廃止され、 JNI に置き換わった JNI が速くなったのもあるが、実は隠し機能がある隠し機能を使うことで JNI 呼び出しが高速化される

高速 JNI関数一覧 (1/2)クラス名メソッド名

java/lang/Class

classForName getDeclaredMethodInternalgetDeclaredConstructorInternal getDeclaredMethodsUncheckedgetDeclaredConstructorsInternal getNameNativegetDeclaredFieldInternal getProxyInterfacesgetDeclaredFields getPublicDeclaredFieldsgetDeclaredFieldsUnchecked newInstance

java/lang/Object internalClone notifyAllnotify wait

java/lang/reflect/Array createMultiArray createObjectArrayjava/lang/reflect/Constructor newInstance 　

java/lang/reflect/Field

get setgetBoolean setBooleangetByte setBytegetChar setChargetDouble setDoublegetFloat setFloatgetInt setIntgetLong setLonggetShort setShort

java/lang/reflect/Method invoke getExceptionTypesNative

高速 JNI関数一覧 (2/2)クラス名メソッド名

java/lang/StringFactory newStringFromBytes newStringFromStringnewStringFromChars 　

java/lang/System

arraycopy arraycopyLongUncheckedarraycopyCharUnchecked arraycopyFloatUncheckedarraycopyByteUnchecked arraycopyDoubleUncheckedarraycopyShortUnchecked arraycopyBooleanUncheckedarraycopyIntUnchecked identityHashCode

java/lang/Throwable nativeFillInStackTrace nativeGetStackTrace

libcore/util/CharsetUtilsasciiBytesToChars toIsoLatin1BytesisoLatin1BytesToChars toUtf8BytestoAsciiBytes 　

sun/misc/Unsafe

compareAndSwapInt putIntcompareAndSwapLong putOrderedIntcompareAndSwapObject getLonggetIntVolatile putLongputIntVolatile putOrderedLonggetLongVolatile getObjectputLongVolatile putObjectgetObjectVolatile putOrderedObjectputObjectVolatile getArrayBaseOffsetForComponentTy

pegetInt getArrayIndexScaleForComponentTy

高速 JNI関数の使い方実は普通のアプリケーションでも使用できる型ディスクリプタの頭に「 ! 」付けるだけ

JNINativeMethod m = {“hoge", “!()Z", hoge}; env->RegisterNatives(clazz, &m, 1);

高速 JNI の注意事項高速 JNI は仮想マシンのステート切り替えのオーバーヘッドがない高速 JNI 内部では Java オブジェクトにアクセスできない高速 JNI で長い時間がかかる処理を行うと GC に悪影響があるこの機能は使っていいか俺は知りません当然 Dalvik では動きません

まとめ

最速を目指すための作法 for 文の中でオブジェクトを生成しない数値計算の場合はループをアンロールする遅い命令は避ける高速 JNI を使う

最速を目指すための作法 for 文の中でオブジェクトを生成しない数値計算の場合はループをアンロールするローカル変数のオブジェクトにアクセスしないフィールド変数はローカル変数にコピーする遅い命令は避ける高速 JNI を使う

注意！最速を目指す必要などない！

Android Guru を目指してバイトコードと逆アセンブラは読みましょうインタープリタのコードは読みましょうベンチマークは重要です

ご清聴ありとうございました

質問はありますか！？

史上最速のandroid

Technology

sistema operativo android de google. por que android? que es...

android - 05 - android basics

som-3202 -...

kek小型電子加速器(lucx)の...

infinum android talks_10_getting groovy on android

androidمرفتلپ رد نیون داصتقا کناب...

igo navigacija za android _ android market

android wear-what's new in android

basic android development: เริ่มต้นกับ...

android android introduzione all'architettura, alla

快速入门指南 panduan mula pantas quick start...

introduzione alla programmazione android - android@tulug

aventuras android con android estudio

android devconference - solid no android

[android] モジュール管理でビルド高速化！

1. android...

歷史原住民族...2017/12/14 ·...

tm 빠른 시작 가이드 - google search · android...

tdc2016poa | trilha android - testes no android

cursos 2012 android esencial android profesional€¦ ·...