第4回先進スーパーコンピューティング環境研究会(ase研究...

12
第4回先進スーパーコンピューティング環境研究会(ASE 研究会)発表資料 東京大学情報基盤センター 特任准教授 片桐孝洋 2009 年 3 月 27 日 14 時から 17 時まで、東京大学情報基盤センター大会議室にて、第 4 回 先進スーパーコンピューティング環境研究会(ASE 研究会)が開催されました。 本号では、Julien Langou 博士(University of Colorado, Denver)の基調講演 「Communication Optimal and Tiled Algorithms for Dense Linear Algebra: Auto-Tuning Opportunities in this new Design Space」 の発表資料を掲載させていただきます。 以上

Upload: others

Post on 07-Feb-2021

5 views

Category:

Documents


0 download

TRANSCRIPT

  • 第4回先進スーパーコンピューティング環境研究会(ASE 研究会)発表資料

    東京大学情報基盤センター 特任准教授 片桐孝洋

    2009 年 3 月 27 日 14 時から 17 時まで、東京大学情報基盤センター大会議室にて、第 4回

    先進スーパーコンピューティング環境研究会(ASE 研究会)が開催されました。

    本号では、Julien Langou 博士(University of Colorado, Denver)の基調講演

    「Communication Optimal and Tiled Algorithms for Dense Linear Algebra: Auto-Tuning

    Opportunities in this new Design Space」

    の発表資料を掲載させていただきます。

    以上

  • Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    Julien Langou, University of Colorado Denver.

    ASE seminar (Advanced Supercomputing Environment)Friday March 27th, 2008.

    In this talk, we will first present recent communication-optimal and tiled algo-rithms for the LU factorization and the QR factorization introduced in [1,2,3,4];then, we will motivate the need for performance auto-tuning in these algorithmsand give some examples of opportunities in software auto-tuning. Our newcommunication-optimal and tiled algorithms represent a radical change with thecurrent generation of linear algebra software (e.g. LAPACK and ScaLAPACK).They offer considerable advantage on a wide variety of platforms: sequential,multicore, parallel distributed, GPU acceleration. While we know that these al-gorithms are optimal in the big O sense, while we have proof-of-concept imple-mentations of these algorithms, a lot remains to be done in finely tune these algo-rithms for a given (possibly heterogeneous) architecture. We believe the answer isin software auto-tuning.

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    For more information:

    • Alfredo Buttari, Julien Langou, Jakub Kurzak and Jack Dongarra. A class of parallel tiled linear algebraalgorithms for multicore architectures. Parallel Computing, 35:38-53, 2009.

    • Alfredo Buttari, Julien Langou, Jakub Kurzak and Jack Dongarra. Parallel tiled QR factorization for multicorearchitectures. Concurrency Computat.: Pract. Exper., 20(13):1573-1590, 2008.

    • James W. Demmel, Laura Grigori, Mark F. Hoemmen, and Julien Langou. Communication-optimal paralleland sequential QR and LU factorizations. arXiv:0808.2664.

    • James W. Demmel, Laura Grigori, Mark F. Hoemmen, and Julien Langou. Implementing Communication-Optimal Parallel and Sequential QR Factorizations. arXiv:0809.2407.

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    1. TSQR: Tall Skinny QR

    2. CAQR: Communication Avoiding QR

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    �����������������������������

    �����������������������������

    ������������������ ��!�"��!������#��$��� %�

    &�����'�����()�(��������%�

    *��$����������������� ��!�"��!������#��$��� %��

    ������&������������� ��!�"�����������������

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    ����������������(����������+������!�����������!������������$�� �����,�-���������������������

    ������� �����������������������������������-���������!����������.��

    �/�

    �0�

    �1�

    �/�

    �0�

    �1�

    ��

    �������

    ����2��$�����2�����2 ���-��

    �������

    ����2��$�����2�����2 ���-��

    ������2���

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    ������������������������������������������

    ��� ������������������������������� ���������32��$�����������������4�

    /4� +������35�����)�������&�2.4��������#�����3�.�&����6���.�+����6������.��������$4.�

    04� #��$'*�75��#��$'"���#��$"'��#��$�*���8�

    ��� �������������������������������� ��������

    /4� �9�������������!���������� �������!��6�������3�..��.�"�����������4��

    04� &'*�75�3��������#�$������������.�"�����������#������4��������������:7+5��

    14� ������-��$�!����*.��������������.��������3�.�"��!��������#��$��� 4.�

    �� � ���������������������������!

    /4� :7+5�3�������)�������&�2.4��������#&;:7:�7�3&�-�����&��������)�������&�2.4��������#&;:7

  • Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    ����������������(����������

    �������������������

    �4� ���������������6���������2�����-����������2����!��6����������,������ �������������������2����!���$��-���

    24� ��2��$�����������������3����������������-��������������9�������������

    ������������������������4�

    4� �����������������������6��������!����������-�������� �����������������������!���������������

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    "������#$���%&���������'#()(*+��

    ��' �

    ���,-

    ����'.�����

    ���

    /

    #

    $

    ('0�

    ('-�#

    $

    1�' �

    ���1�-.����2

    ����3

    4

    &

    ('0�

    ('-�4

    &

    #()(*+�����#$'����� ��������������� #()(*+�����%&'����� ������������1��

    ��������!�����

    ����

    ���2����

    ,�

    :�����

    !����������

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    "������#$���%&���������'#()(*+��

    ��' �

    ���,-

    ����'.�����

    ���

    /

    #

    $

    ('0�

    ('-�#

    $

    #()(*+�����#$'����� ���������������

    ��������!�����

    ����

    ���2����

    ,�

    :�����

    !����������

    #�����5��������

    ��������������2����������!����D�20������

    *)$ �����������������

    �������2��$��!�����������������D�D�2������

    ������ ����������2�����E������������2��.�

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    )��������6������#$���%&�

    )��������6�����������

    •��7�� �������������� ��������2�����F-���.�•��+���������0G1�1�������������&;:������.�•��"���2��������E���� �-���&�:�"=H�������������#&�5�

    ���

    ��' �

    ���,-

    ����'.�����

    ���

    /

    #

    $

    ('0�

    ('-�#

    $

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    )��������6������#$���%&�

    )��������6�����������

    •��7�� �������������� ��������2�����F-���.�•��+���������0G1�1�������������&;:������.�•��"���2��������E���� �-���&�:�"=H�������������#&�5�

    )��������6����������������6�����

    •��)��������������������������,��3���I�/J�4�•��5����..�5�&�:�"=�����:&�2��������2 �!����������-��������������2�K����$��!��������������.�

    7������������������6�����

    •��&��$������3�����..����:��!�������&():�"=4�•��� ����5�������

    ��' �

    ���,-

    ���

    ��' �

    ���,-

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    ��������������!����������-���

    � �����������.�

    +���

    "������ �!������!�����#�K�����+���������

  • Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    @�����2��������������2�� L�

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    @�����2��������������2�� L�)�M�/B1J����������������������������������������������������������������������������������������������������������

    )#�M�J?�����������������������������������������������������������������������������������������������������������

    �����M�/J�

    @�����������������������!����������3�04�-�������**3�14��������� ��

    ��������**�����������������2 �����������!����������N�

    )77���;��)7@�*�+�7*�+("�&��&';�(+�*5�

    "������ �!������$�2�=����$���+���������

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    ����-�����������!���������L�(��������������������������������������

    &():�"=�3OPQ�4�

    3R��������������4�

    ��� �����

    ���9�&����9/�#&�5�����������

    &�:�"=�3SPQ�4�

    3#��$�������!����� 4�

    ��� �����

    ���9�&����91�#&�5�����������

    )�-����������3PPQ�4�

    3��������!����� 4�

    ��� �����

    ���9�����'G���������

    ���9�2��$�������� ����

    ���9�������,����$�������

    +�������-�����������

    ����9����������� ��������������5����� ��������� �-����3��������������������������8�4�

    ����9��������������������������������������$���3�������������2�����������4�

    ����9������������53����2����������������9�!9���4�

    ����9����5�������������

    �+�������-�����������������-�$�������������� �����E��������������������.�

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    -889 -88:�)�-����������2��������0�������������

    –� $;����'������=��"�;&�3�������4��&������3���9�!9���4�–� $;��������'>���������"�;&�3�������4�–� 7)*-?'+@����A�B�"C'

  • Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    #2����� �

    •� �.�5����������������=.�@�����2��$�������������������������-������������ �������������6��������������������������������

    ���������013J4�0/JB90/O0��0PP0.�

    •� :����������2 ��������������������2�������

    /4� :7+5�3�������)�������&�2.4��������#&;:7:�7�3&�-�����&��������)�������&�2.4��������#&;:7�=� � �"�M��+� � �3���04�

    0��*:(T������ �"�M���������" �3�������P4�

    1��"�;&� � ����M����3�"�4 �3��1G1�4�

    ?��*:(T#���� �#��������������!������������P�

    � ����������������������������

    B��+�5*� � ����M��G� � �3���04�

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    7E���������L�

    H��

    �����

    ����1� ��� ��'���� 1�� mgs

    / ?OS.0 3/.P04 /1?./ 31.U14 U1.B 3J.O/4 1S./ 3/0.UO4 BJ./O� 3O.SP4�

    0 ?JU.1 3P.B?4 UO.S 31./U4 1S.P 3J.?/4 00.1 3//.0/4 1/.0/� 3O.P/4�

    ? ?JJ.? 3P.0U4 U/.1 3/.UB4 1O.U 31.014 00.0 3B.J14 0S.BO� 3?.014�

    O ?1?.P 3P./?4 JU.? 3P.S14 1J.U 3/.UP4 0P.O 31.P/4 0/./B� 30.SJ4�

    /J 1BS.0 3P.PS4 B?.0 3P.BO4 1/.J 3P.SS4 /O.1 3/.U/4 /?.??� 30./J4�

    10 /SU.O 3P.PO4 ?/.S 3P.1U4 0S.P 3P.B?4 /B.O 3P.SS4 O.1O� 3/.OU4�

    CI#�)B���B����

    ;�������

    (�������,���������-��V,�

    �������2�����J088!888�

    �����J98.��

    :��!���

    ���

    �3*�&;

    :G��G���4�

    +

    ��3��4�

    W��!������W��!������

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    5����������L�

    ������������������������������������������������������������������������� �����!������"#��

    �������$�%�������������� ��� ���&���� ���'!!��� ���(��������������� ��)*�+������������+����������"%�������������������,��-� .��������������/0'1-.������2'����!�������"%���!�����!���$���!�����!!�������������3��$��"%��

    ������������� ��� ���&���� �����4���� ���'!!��� ���,�(������ ���,��'������ ����������)*�+�����������������"%����������%�

    �5��

    3�8������;=�� �������-��������������*:(��������V��������� �������������� �����������������!��4�

    H�

    �����3� 4�

    X�

    H� H�

    /.�

    0.�

    19?.�

    B.�

    "� "/� "0

    � "1� "?

    "� �

    +��

    ���

    "���

    ��

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    5��2��������L�

    /.PP79/J�

    /.PP79/?�

    /.PP79/0�

    /.PP79/P�

    /.PP79PO�

    /.PP79PJ�

    /.PP79P?�

    /.PP79P0�

    /.PP7HPP�

    /.PP7HPP�/.PP7HP0�/.PP7HP?�/.PP7HPJ�/.PP7HPO�/.PP7H/P�/.PP7H/0�/.PP7H/?�

    ���6��

    ��

    ���

    ������������

    /.PP79/J�

    /.PP79/B�

    /.PP79/?�

    /.PP7HPP�/.PP7HP0�/.PP7HP?�/.PP7HPJ�/.PP7HPO�/.PP7H/P�/.PP7H/0�/.PP7H/?�

    ���6��

    ��

    ���

    ������������

    Y03�4�

    Y03�4�

    ZZ���[�����ZZ0�G�ZZ���ZZ�0�

    ZZ�(�[��+���Z

    Z0�

    �M/PP���MBP�

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    :������������2�����"�����$ ���+���"�����$ �����������������������������2���������,�����2������2������!����-���

    H�

    �����3� 4�

    G�

    H� H�

    /.�

    0.�

    19?.�

    B.�

    "� "/� "0

    � "1� "?

    "� �

    +� ��

    ���

    "���

    ��

    /��5>�=� � �"�M��+� � �3���04�

    0��*:(T������ �"�M���������" �3�������P4�

    1��"�;&� � ����M����3�"�4 �3��1G1�4�

    ?��*:(T#���� �#��������������!������������P�

    � ����������������������������

    B��+�5*� � ����M��G� � �3���04�

    +�������������,������ �!���.������-������������

    /.� V����������������5����������

    �����������������0.� �����������������������������������������������������.��

    ������������������!��������������������������������������,��� �!����������

    1.� ������������������������������������� �����������2�����.�������������������������������

    ?.� ������������������5��������.�

  • Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    ���������������+��������9��K�����������!����������������2��

    �������������!����-���

    /.� ���!������������!�����������!���������,���

    0.� ��������������!������������������P�

    1.� ���!���������!�����������!��������������������������������!�������������������!�����

    �2��������������!�����

    ?.� ��K�������������!������!�������������P����������������������

    B.� ������ ������ ������-����!�������������������.�

    D�

    /.�

    0919?.�

    B.�

    �3P4�

    ��

    ��

    �� �/�

    �0�

    �1�

    �?��@?

    �@1�

    �@0�

    �@/�

    �@�

    �3P4���

    �6��3�

    �6��3� �4�

    �4�

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    ���������������

    •� +�����������K��9��������������!������������.��

    •� +������������������� ��E����!����-������������–� V�������������������������0�����?�������� ��������

    ���������P�%�

    –� ���������������!������1����G1D�1���������������2����!���������.�

    •� )�������������"�����$ �������������������2��

    ������������������K�� �������-� �2��������� ���������.�+����������������� ��������������������������2���-�-������������92����������������!���������������������������2��.�+���-���2������V�����������.�

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    ;���-�����������

    �P3P4�3� �� 4����3� 4�

    �P� RP3P4�

    �P3/4�3� �� 4����3� 4��P

    3P4�

    �/3P4�

    RP3/4�

    R/3/4�

    (������ �3� ��� 4�RP

    3/4�

    P��R/3/4�

    �P3/4�

    �/3/4�

    ���� �3� ��� 4�

    P��

    RP3P4�

    �P3/4�

    �P�

    �/3P4�3� �� 4����3� 4�

    �/� R/3P4�

    ���� �3� ��� 4�

    R/3P4�

    �/3/4�

    �/�

    ����

    �����

    ����

    P��

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    +���2�������8.�

    �/�

    �0�

    �1�

    �?�

    �B�

    �J�

    �P�

    �?�

    �/�

    �B�

    �J�

    �1�

    �0�

    ���

    ���

    ���

    ���

    ���

    ���

    ���

    ����

    ����

    �����

    ��

    ��������

    ���������

    �P�

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    &���� �2������������2�� ��!�!����

    ������!���������.�•� ><%&E��������������

    ��������3����7�����������

    '����������0PPP4��><%&I�����

    ><%&-���������&�:�"=�

    �������.�

    •� +������������������&���+.�

    •� �������:������(((.�

    %&�������6��������������������;

    J08!888

    )�����CI#�)B���';���������

    � �'7��1 �'7��� �'7��0

    BP /U1.J� 3P.0S4� JB.P� 3P.UU4� J?.J� 3P.UU4�

    /PP 0?P.B� 3P.O14� J0.J� 31./U4� JB.1� 31.P?4�

    /BP 0UU.S� 3/.JP4� O/.J� 3B.?J4� J?.0� 3J.S?4�

    0PP 1/0.B� 30.B14� ///.1� 3U.PS4� JB.S� 3//.SO4�

    �M/PPP�PPP������,��,�������

    *�&;

    :G���

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    @������� �����-������

    ����

    �����

    ����

    �P3P4�3� 4����3� 4�

    �P�

    �P3/4�3� 4�

    ���3� 4��P

    3P4��/

    3P4�

    �/3P4�3� 4����3� 4�

    �/�

    �03P4�3� 4����3� 4�

    �0�

    �03/4�3� 4�

    ���3� 4��0

    3P4��1

    3P4�

    �13P4�3� 4����3� 4�

    �1�

    ��3� 4����3� 4�

    �P3/4�

    �03/4�

  • Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    @������� �����-�������+���

    *:(T���������(����������-�������� �����-���������������!���������������-������������������� �����

    *:(T���������-������������V������������.�+������������-��

    ������*:(���2����� �����

    ��������0.�(�����!�������������������

    � ��

    +�������5�������������������������������������*:(��������������������9��V����������������

    ������9��V��������� ��.�*���������!�-����������������!���������������!���������������

    ��������!����������������������������������2��� ����������Rfactor�2������

    ��

    ������.��

    +�������2�������-��������

    lapack_dgeqrf( mloc, n, A, lda, tau, &dlwork, lwork, &info );

    MPI_Allreduce( MPI_IN_PLACE, A, 1, MPI_UPPER,

    LILA_MPIOP_QR_UPPER, mpi_comm);

    QR ( )�R1�

    R2�R�

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    ���������5���������2�� �

    •� (�������,���������-��V,��������2�����J088!888������J98.�+����-����������������2����!����������.��

    •� ;�����������������������D1�E�������������2�����*������5%&.�)������������D1�E���

    ���������� ����2���-�����������2�� ��!��*������5%&����������������6������!���������������2����!��������������,.�

    H��

    �����

    ����1� ���D1�E ��� ��'���� ���D1�� 1�� 1�-

    / ?OS.0 3/.P04 /0P.P 3?./U4 /1?./ 31.U14 U1.B 3J.O/4 B/.S 3S.J?4 1S./ 3/0.UO4 1?.1 3/?.JP4

    0 ?JU.1 3P.B?4 /PP.O 30.?O4 UO.S 31./U4 1S.P 3J.?/4 1/.0 3O.P04 00.1 3//.0/4 0P.0 3/0.B14

    ? ?JJ.? 3P.0U4 SU.S 3/.0O4 U/.1 3/.UB4 1O.U 31.014 1/.P 3?.P14 00.0 3B.J14 /O.O 3J.JJ4

    O ?1?.P 3P./?4 SB.S 3P.JB4 JU.? 3P.S14 1J.U 3/.UP4 1?.P 3/.O?4 0P.O 31.P/4 /U.U 31.B?4

    /J 1BS.0 3P.PS4 /P1.O 3P.1P4 B?.0 3P.BO4 1/.J 3P.SS4 0U.O 3/./04 /O.1 3/.U/4 /J.1 3/.S/4

    10 /SU.O 3P.PO4 O?.S 3P./O4� ?/.S 3P.1U4 0S.P 3P.B?4 11.1 3P.?U4 /B.O 3P.SS4 /?.B 3/.PO4

    W������

    *�&;

    :G��G����

    CI#�)B���B���� ;�������

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    ���������@��$�����2�� �-���������������•� @��V,�����������������2�����J088!888�

    �����J98.�@����-����������������2���

    �!������������������2�������-��

    ������������ .��

    •� ����D1�E������������������������-�����������������!��������������D1�����

    ���������-���&�:�"=���������������.�

    @�����������2�����2���V���!�����

    �������.�5������-����3J4.�1�-�����1��

    �����������������5�&�:�"=�

    ���������������!�����������������.�

    H��

    �����

    ����1� ���D1�E *�� ��'���� ���D1�� 1�� 1�-

    / ?OS.0 3/.P04 /0/.0 3?./14 /1B.U 31.JS4 UP.0 3U./14 B/.S 3S.J?4 1S.O 3/0.BJ4 1B./ 3/?.014

    0 ?JJ.S 3/.PU4 /P0.1 3?.OS4 O?.? 3B.S14 1B.J 3/?.P?4 0U.U 3/O.PJ4 0P.S 301.OU4 0P.0 30?.OP4

    ? ?B?./ 3/./P4 SJ.U 3B./U4 JU.0 3U.??4 ?/.? 3/0.PS4 10.1 3/B.?O4 0P.J 30?.0O4 /O.1 30U.0S4

    O ?BO.U 3/.PS4 SJ.0 3B.0P4 JU./ 3U.?J4 11.0 3/B.PJ4 0O.1 3/U.JU4 0P.B 30?.?14 /U.O 30O.PU4

    /J ?B/.1 3/.//4 S?.O 3B.0U4 JU.0 3U.?B4 11.1 3/B.P?4 0U.? 3/O.004 0P.P 30?.SB4 /U.0 30S./P4

    10 ??0./ 3/./14 S?.J 3B.0S4 J0.O 3U.SU4 10.B 3/B.1O4 0J.B 3/O.O?4 /S.O 30B.0U4 /J.S 30S.J/4

    J? ?/?.S 3/.0/4 S1.P� 3B.1O4 J0.O 3U.SJ4 10.1 3/B.?J4 0U.P 3/O.B14 /S.? 30B.US4 /J.J 31P./14

    W������

    *�&;

    :G��G����

    CI#�)B���B���� ;�������

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    ���������@��$�����2�� �-���������������

    •� @��V,�������2�������

    J088!888����������-��

    �������������6��3�4�������������

    -��$�������0��������������

    ��������������.��

    •� �������2�K������!������������������!�������������5>�=��

    *������5%&�����D1E�����

    ���D1����,�2���������

    ���!��������������2�

    ����

    ����������1������������� �

    H��

    �����

    ����1� ���D1�E ��� ��'���� ���D1�� 1�� 1�-

    / ?SP.U 3/.P04 /0P.O 3?./?4 /1?.P 31.U14 JS.U 3U./U4 B/.U 3S.JO4 1S.J 3/0.J14 1S.S 3/?.1/4

    0 B/P.0 3P.SS4 /0J.P 3?.PP4 UO.J 3J.?/4 ?P./ 3/0.BJ4 10./ 3/B.U/4 0B.? 3/S.OO4 /S.P 30J.BJ4

    ? B?/./ 3P.S04 /?S.? 31.1B4 UB.J 3J.J04 1S./ 3/0.UO4 1/./ 3/J.PU4 0B.B 3/S.BS4 /O.S 30J.?O4

    O B?P.0 3P.S04 /U1.O 30.OJ4 U0.1 3J.OU4 1O.B 3/0.OS4 ?1.J 3//.?/4 0U.O 3/U.OB4 0P.0 30?.BO4

    /J BP/.B 3/.PP4 /SB.0 30.BJ4 JJ.O 3U.?O4 1O.? 3/1.P04 B/.1 3S.UB4 0O.S 3/U.0S4 /S.1 30B.OU4

    10 1US.0 3/.104 /UU.? 30.O04 BS.O 3O.1U4 1J.0 3/1.O?4 J/.? 3O./B4 0S.B 3/J.SB4 /S.1 30B.S04

    J? 0JJ.? 3/.OO4 O1.S 3B.SJ4 10.1 3/B.?J4 1J./ 3/1.O?4 B0.S 3S.?J4 0O.0 3/U.U?4 /O.? 30U./14

    *�&;

    :G��G����

    W������3���4�

    *�&;

    :G��G����

    W ���� 3 � 4CI#�)B���B���� ;�������

    �1��\���

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    ����� ��5���������2�� �•� (�������,���������-��V,�����

    ���2�����J088!888������J98.�+����

    -����������������2����!�

    ���������.��

    H��

    �����

    ����1� ���D1�E ��� ��'���� ���D1�� 1�� 1�-

    / /PSS.P?J� 3P.?B4� /?U.J� 31.1O4� /1S.1PS� 31.BO4� U1.B� 3J.O/4� JS.P?S� 3U.0?4� JS./PO� 3U.014� JO.UO0 3U.0U4�

    0 /PJU.OBJ� 3P.014� /01.?0?� 30.P04� UO.J?S� 31./U4� 1S.P� 3J.?/4� ?/.O1U� 3B.SU4� 1O.PPO� 3J.BU4� ?P.UO0 3J./14�

    ? /P1?.0P1� 3P./04� //J.UU?� 3/.PU4� U/./P/� 3/.UJ4� 1O.U� 31.014� 1S.0SB� 31./O4� 1J.0J1� 31.??4� 1J.P?J 31.?U4�

    O OUJ.U0?� 3P.PU4� //S.OBJ� 3P.B04� JJ.B/1� 3P.S?4� 1J.U� 3/.UP4� 1U.1SU� 3/.JU4� 1B.1/1� 3/.UU4� 1?.PO/ 3/.O14�

    /J J/S.P0� 3P.PB4� /0S.OPO� 3P.0?4� B1.1B0� 3P.BS4� 1/.J� 3P.SS4� 11.BO/� 3P.S14� 1/.11S� 3P.SS4� 1/.JSU 3P.SO4�

    10 ?JO.110� 3P.P14� SB.JPU� 3P./J4� ?0.0UJ� 3P.1U4� 0S.P� 3P.B?4� 1U.00J� 3P.?04� 0B.JSB� 3P.JP4� 0B.SU/ 3P.JP4�

    J?� /SB.OOB� 3P.P?4� UU.PO?� 3P./P4� 0B.OS� 3P.1P4� 00.O� 3P.1?4� 1J./0J� 3P.004� /U.U?J� 3P.??4� /U.U0B 3P.??4�

    W������

    *�&;

    :G��G����

    CI#�)B���B���� ;������� W������

  • Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    ����� ��@��$�����2�� �-���������������•� @��V,�����������������2�����J088!888�

    �����J98.�@����-����������������2���

    �!������������������2�������-��

    ������������ .��

    H��

    �����

    ����1� ���D1�E ��� ��'���� ���D1�� 1�� 1�-

    / /PSO.U 3P.?B4 /?B.? 31.?14 /1O.0 31.J/4 UP.0 3U./14 UP.J 3U.PU4� JO.U 3U.0J4� JS./ 3U.004�

    0 /P?O.1 3P.?U4 /0?.1 3?.P04 UP.1 3U.//4 1B.J 3/?.P?4 ?1./ 3//.BS4� 1B.O 3/1.SB4� 1J.1 3/1.UJ4�

    ? /P??.P 3P.?U4 //J.B 3?.0S4 O0.P 3J.PS4 ?/.? 3/0.PS4 1B.O 3/1.S?4� 1J.1 3/1.U?4� 1?.U 3/?.?P4�

    O SS1.S 3P.BP4 //J.0 3?.1P4 JJ.1 3U.B14 11.0 3/B.PJ4 1B./ 3/?.0/4� 1B.B 3/?.PB4� 11.O 3/?.UB4�

    /J S/O.U 3P.B?4 //B.0 3?.114 J?./ 3U.US4 11.1 3/B.P?4 1?.P 3/?.JJ4� 11.? 3/?.S?4� 11.P 3/B.//4�

    10 SBP.U 3P.B04 //0.S 3?.?04 J1.J 3U.OB4 10.B 3/B.1O4 11.? 3/?.SB4� 11.1 3/B.P/4� 10.S 3/B./S4�

    J? UJ?.J 3P.JB4 //0.1 3?.?B4 J0.U 3U.SJ4 10.1 3/B.?J4 1?.P 3/?.JJ4� 10.J 3/B.114� 10.1 3/B.?J4�

    W������

    *�&;

    :G��G����

    CI#�)B���B���� ;�������

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    ���������5���������2�� �

    P�

    /PP�

    0PP�

    1PP�

    ?PP�

    BPP�

    JPP�

    UPP�

    OPP�

    10� J?� /0O� 0BJ�

    ��������3��14�

    ��������3���4�

    5�&�:�"=�����

    5�&�:�"=���0�

    �(�������,���������-��V,��������2�����J0!888!888������J98.�

    +����-����������������2����!����������.���#����'����&�

    !����.���.����

    W��!�����������

    *�&;

    :�G��G����

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    "���������

    �@�����������2�������-��������!����������������������!�����������!��$�� �������.�+������������������(��������7������������������!����������������

    /.� �����������5����5�������6�������������������������

    0.� ��������������������������L�����5�����������������2 �����������������������

    1.� ����������������������

    ?.� ����V���� �������������������������������������������-�������� �����������.�

    ������������������������2����������������-������������������!���������.���-����������2���������������������!����,������'���95��������&�.��

    �"�����������������������-������0��2��$� �����!��������������&��!����������2������������������.�

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    1. TSQR: Tall Skinny QR

    2. CAQR: Communication Avoiding QR

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    k=1 k=1, j=2 k=1, j=3

    k=1, i=2 k=1, i=2, j=2 k=1, i=2, j=3

    k=1, i=3 k=1, i=3, j=2 k=1, i=3, j=3

    DLARFB/DGESSM DLARFB/DGESSM

    DSSRFB/DSSSSM DSSRFB/DSSSSM

    DSSRFB/DSSSSM DSSRFB/DSSSSM

    DGEQRT/DGETRF

    DTSQRT/DTSTRF

    DTSQRT/DTSTRF

    Alfredo Buttari, Julien Langou, Jakub Kurzak, and Jack Dongarra. LAWN 191 – A Class of Parallel Tiled Linear Algebra Algorithms for MulticoreArchitectures, September 2007.

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    ����������������������

    ���������

    �������������������������������

    ������������������������

    �������������� �������������������������������������������

    ������������������������

    ����������

    � ��������������������������������������

    � ������������������������

    ���

    � � ��

    ������������������������������������������������

    ��

    ����������������������������������

    ����������������������������������

    ���

    ����������������������������������������

    ���

    ����������������������������������������

    ���

    ����������������������������������������

    ���������

    ���� ��������� ���!����� ����� �� �� !�� �� ��� �

    ��"��������

    �""� ����� �""� ����� �""� ������ � � � ��� � � � �

  • Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    Execution of the parallel TSQR factorization on a binary tree of four processors. The gray boxes indicate wherelocal QR factorizations take place. The Q and R factors each have two subscripts: the first is the sequence numberwithin that stage, and the second is the stage number.

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    Execution of the sequential TSQR factorization on a flat tree with four submatrices. The gray boxes indicate wherelocal QR factorizations take place The Q and R factors each have two subscripts: the first is the sequence numberfor that stage, and the second is the stage number.

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    Execution of a hybrid parallel / out-of-core TSQR factorization. The matrix has 16 blocks, and four processors can execute local QR factorizations simultaneously.The gray boxes indicate where local QR factorizations take place. We number the blocks of the input matrix A in hexadecimal to save space (which means that thesubscript letter A is the number 1010, but the non-subscript letter A is a matrix block). The Q and R factors each have two subscripts: the first is the sequence numberfor that stage, and the second is the stage number.

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    A is m–by–n with m = pb and n = qb.We are only interested in the first step of the Householder QR factorization.

    ���

    ←−

    m = pb

    �� n = qb

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    1 Classic unblocked Householder factorization: DGEQF21. DGEQR2: Panel factorization.

    ���

    ←− 2mb2 − 23 b3 = 2(p− 13 )b3

    2. DLARF: Apply the V vector one-by-one to the remaining matrix. Thismakes b small step

    ←− (I− )

    . . .

    ←− (I− )

    ∑pb�=(p−1)b+1 4(q−1)b�= 4(q−1)b∑bi=1 (p−1)b+ i= 4(q−1)b((p−1)b2 + 12 b2)= (4p−2)(q−1)b3

    total (4pq−2p−2q+ 43 )b3

  • Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    2 Classic block Householder factorization: DGEQRF1. DGEQR2: Panel factorization.

    ���

    ←− 2mb2 − 23 b3 = 2(p− 13 )b3

    2. DLARFT: Construction of the T matrix to apply the Househodler byblock

    ��

    ←−

    ���

    mb2 − 13 b3 = (p− 13 )b3

    3. DLARFB: Apply the V vectors by block to the remaining matrix.

    ←− (I−

    �� �

    T�

    )

    4bm(n−b)−b2(n−b)= (4p−1)(q−1)b3 Or doing it y hand:(2p−1)(q−1)b3+(q−1)b3+(2p−1)(q−1)b3= (4p−1)(q−1)b3

    total (4pq−p−q)b3So if we want to compare quickly the unblocked Househodler code with the block Househodler code, there is an overhead of (p+q)b3. There pb3 overhead due toDLARFT and qb3 due to DLARFB.

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    3 SUQRAStep 1.1.a. First QR factorization.

    ���

    � ←−43 b

    3

    1.b DLARFT: Construction of the T matrix to apply the Househodler byblock

    ��

    ←−�

    ���

    23 b

    3

    1.c. DLARFB: Apply the V vectors by block to the remaining matrix.

    ←− (I−�

    � ��

    T�

    � ) 3(q−1)b3

    Step 2. (repeat this step (p−1) times.2.a. TSQR factorization (TS=triangle-square)

    �� ←−

    �� 2b3

    2.b TS-LARFT: Construction of the T matrix to apply the Househodler byblock

    ��

    ←−�

    � 43 b

    3

    2.c. TS-LARFB: Apply the V vectors by block to the remaining matrix.

    ←− (I−�

    ��

    T�

    � ) 5(q−1)b3

    total (5pq− 53 p−2q+ 23 )b3

    This algorithm is going to perform 20% more FLOPS.⇒ Need for inner blocking.

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    4 SUQRA without blockingStep 1.1.a. First QR factorization.

    ���

    � ←−43 b

    3

    1.c. DLARFB: Apply the V vectors by block to the remaining matrix.

    ←− Apply�

    � to 2(q−1)b3

    Step 2. (repeat this step (p−1) times.2.a. TSQR factorization (TS=triangle-square)

    �� ←−

    �� 2b3

    2.c. TS-LARFB: Apply the V vectors by block to the remaining matrix.

    ←− Apply�

    � to 4(q−1)b3

    total (4pq−2p−2q+ 43 )b3

    Exactly the same number of FLOPs as for the unblocked QR factorization

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    5 comparisonunblocked QR unblocked SUQRA blocked QR blockedSUQRA

    panel (2p− 23 )b3 (2p− 23 )b3 (2p− 23 )b3 (2p− 23 )b3T (p− 13 )b3 ( 43 p− 23 )b3

    update (4pq−2q−4p+2)b3 (4pq−2q−4p+2)b3 (4pq−q−4p+1)b3 (5pq−2q−5p+2)b3total (4pq−2q−2p+ 43 )b3 (4pq−2q−2p+ 43 )b3 (4pq−q− p)b3 (5pq−2q− 53 p+ 23 )b3

    We can integrate those values to know the FLOPS count of the algorithm, we replace q by i when i varies from q to 1 and we replace p with p−q + i. We assumethat p > q, i.e. the matrix is taller than longer.This gives for the unblocked QR algorithm:

    q

    ∑i=1

    (4(p−q+ i)i−2i−2(p−q+ i)+ 43)b3

    =q

    ∑i=1

    (4p−4q−4)i+4i2 −2p+2q+ 43)b3

    = (4p−4q−4)q2

    2+4

    q3

    3−2pq+2q2 + 4

    3q)b3

    = (2pq2 −2q3 −2q2 + 43

    q3 −2pq+2q2 + 43

    q)b3

    = (2pq2 − 23

    q3 −2pq+ 43

    q)b3

    = 2mn2 − 23

    n3 −2mnb+ 43

    nb2

    The order is OK we find: 2mn2 − 23 n3 as expected.This gives for the block SUQRA:

    q

    ∑i=1

    (5(p−q+ i)i−2i− 53(p−q+ i)+ 2

    3)b3

    ∼q

    ∑i=1

    (5pi−5qi+5i2)b3

    ∼ (52

    pq2 − 52

    q3 +53

    q3)b3

    ∼ 52

    mn2 − 56

    n3

    (1)

    which means 20% overhead.

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    6 Remark on the panel factorizationClassical method

    ���

    � ←− 2(2b)b2 − 23 b3 103 b3

    PUQRAPUQRA-step1

    ���

    � ←−

    ���

    � ←−43 b

    3 + 43 b3

    PUQRA-step2

    ��

    ��

    ←−�

    ��

    23 b

    3 103 b

    3

    SUQRASUQRA-step1

    ���

    � ←−43 b

    3

    SUQRA-step2

    �� ←−

    �� 2b3 103 b

    3

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    DSSRFBDTSQRT

    A

    U T

    V

    B

    C

    Alfredo Buttari, Julien Langou, Jakub Kurzak, and Jack Dongarra. LAWN 191 – A Class of Parallel Tiled Linear Algebra Algorithms for MulticoreArchitectures, September 2007.

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

  • Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    An interesting middleware: SMPSs

    ��������

    �����������������������������������������������������������������������������

    ��������

    ������������������������������������������������������������������������������������������������

    ��������

    ��������������������������������������������������������������������������������������������������

    ��������

    �������������������������������������������������������������������������������������������������������������������������

    ��������

    ����������������������������

    ���

    �����������������������

    ����������������������������

    �����������������������������������

    ����������������������������

    ����������������������������������������������������������������������

    �������������������������������������������������������������

    �����

    0 1000 2000 3000 4000 5000 6000 7000 8000

    0

    10

    20

    30

    40

    50

    60

    70

    80

    90

    100

    110

    Tile QR Factorization Performance

    Matrix Size

    Gflo

    p/s

    Static Pipeline

    SMPSs*

    SMPSs

    Cilk 1D

    Cilk 2D

    From:

    • Jakub Kurzak, Hatem Ltaief, Jack Dongarra, and Rosa M.Badia. Scheduling Linear Algebra Operations on Multi-core Processors. LAWN 213.

    See also:

    • Rosa M. Badia, José R. Herrero, Jesús Labarta, Josep M.Pérez, Enrique S. Quintana-Ortı́, and Gregorio Quintana-Ortı́. Parallelizing dense and banded linear algebra li-braries using SMPSs. UPC-DAC-RR-2008-64.

    • Hatem Ltaief, Jakub Kurzak, and Jack Dongarra. Schedul-ing Two-sided Transformations using Algorithms-by-Tileson Multicore Architectures. LAWN 214.

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    Alfredo Buttari, Julien Langou, Jakub Kurzak, and Jack Dongarra. LAWN 191 – A Class of Parallel Tiled Linear Algebra Algorithms for MulticoreArchitectures, September 2007.

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    2000 4000 6000 8000 10000 120000

    10

    20

    30

    40

    50

    60

    70

    80

    Cholesky −− 2−way Quad Clovertown

    problem size

    Gflop/s

    DGEMM peak

    LAPACK

    MKL−9.1

    Tiled+asynch.

    Alfredo Buttari, Julien Langou, Jakub Kurzak, and Jack Dongarra. LAWN 191 – A Class of Parallel Tiled Linear Algebra Algorithms for MulticoreArchitectures, September 2007.

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    2000 4000 6000 8000 10000 120000

    10

    20

    30

    40

    50

    60

    70

    80

    QR −− 2−way Quad Clovertown

    problem size

    Gflop/s

    DGEMM peak

    LAPACK

    MKL−9.1

    Tiled+asynch.

    Alfredo Buttari, Julien Langou, Jakub Kurzak, and Jack Dongarra. LAWN 191 – A Class of Parallel Tiled Linear Algebra Algorithms for MulticoreArchitectures, September 2007.

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    0 500 1000 1500 2000 2500 3000 3500 40000

    20

    40

    60

    80

    100

    120

    140

    160

    180

    200

    Tile QR Factorization �� 3.2 GHz CELL Processor

    Matrix Size

    Gflo

    p/s

    SSSRFB PeakTile QR

    Performance of the tile QR factorization in single precision on a 3.2 GHz CELL processor with eight SPEs.Square matrices were used. Solid horizontal line marks performance of the SSSRFB kernel times the number ofSPEs (22.16×8 = 177 [Gflop/s]).

    “The presented implementation of tile QR factorization on the CELL processor allows for factorization of a 4000–by–4000 dense matrix in single precision in exactly half of a second. To the author’s knowledge, at present, it is thefastest reported time of solving such problem by any semiconductor device implemented on a single semiconductordie.”

    Jakub Kurzak and Jack Dongarra, LAWN 201 – QR Factorization for the CELL Processor, May 2008.

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    ���������5���������2�� �

    P�

    /PP�

    0PP�

    1PP�

    ?PP�

    BPP�

    JPP�

    UPP�

    OPP�

    10� J?� /0O� 0BJ�

    ��������3��14�

    ��������3���4�

    5�&�:�"=�����

    5�&�:�"=���0�

    �(�������,���������-��V,��������2�����J0!888!888������J98.�

    +����-����������������2����!����������.���#����'����&�

    !����.���.����

    W��!�����������

    *�&;

    :�G��G����

  • Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    Strategy:

    1. obtain some lower bounds for the cost (latency, bandwidth, # of operations) of LU, QR and Cholesky insequential and parallel distributed

    2. compute the costs of our algorithms and compare with the lower bound.

    Lower bounds:

    1. For LU, observe that: ⎛⎝

    I 0 −BA I 00 0 I

    ⎞⎠ =

    ⎛⎝

    IA I0 0 I

    ⎞⎠

    ⎛⎝

    I 0 −BI A ·B

    I

    ⎞⎠

    therefore lower bound for matrix-matrix multiply (latency, bandwidth and operations) also holds for LU.

    2. For Cholesky, observe that:⎛⎝

    I AT −BA I +AAT 0

    −BT 0 D

    ⎞⎠ =

    ⎛⎝

    IA I

    −BT (A ·B)T X

    ⎞⎠

    ⎛⎝

    I AT −BI A ·B

    XT

    ⎞⎠

    however this gets nasty due to the AAT term in the initial matrix A. See Grey Ballard, James Demmel,Olga Holtz, and Oded Schwartz. Communication-optimal Parallel and Sequential Cholesky decomposition.UCB/EECS-2009-29, February 13th, 2009.

    3. For QR, we needed to redo the proof of optimality of matrix-matrix multiply. See James W. Demmel, LauraGrigori, Mark F. Hoemmen, and Julien Langou. Communication-avoiding parallel and sequential QR factor-izations. arXiv:0902.2537, May 30th, 2008.

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    Par. CAQR PDGEQRF Lower bound

    # flops 4n3

    3P4n33P O

    (n3P

    )

    # words 3n2

    4√

    PlogP 3n

    2

    4√

    PlogP O

    (n2√

    P

    )

    # messages 38√

    P log3 P 5n4 log2 P O

    (√P)

    Performance models of parallel CAQR and ScaLAPACK’s parallel QR factor-ization PDGEQRF on a square n×n matrix with P processors, along with lowerbounds on the number of flops, words, and messages. The matrix is stored ina 2-D Pr ×Pc block cyclic layout with square b× b blocks. We choose b, Pr,and Pc optimally and independently for each algorithm. Everything (messages,words, and flops) is counted along the critical path.

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    Seq. CAQR Householder QR Lower bound# flops 43n

    3 43n

    3 O(n3)# words 3 n

    3√W

    13

    n4W O(

    n3√W

    )

    # messages 12 n3

    W 3/212

    n3W O(

    n3

    W 3/2)

    Performance models of sequential CAQR and blocked sequential HouseholderQR on a square n×n matrix with fast memory size W , along with lower boundson the number of flops, words, and messages.

    Communication Optimal and Tiled Algorithms for Dense Linear Algebra:Auto-Tuning Opportunities in this new Design Space.

    Autotuning opportunities:

    kernel tuning: introduction of a lots of new kernels (e.g. QR fact. of a triangle on top of a square). For eachkernel:

    1. how to optimize the blocking parameter (nb)?

    2. which algorithmic variants to choose (left looking, recursive, ...) ?

    3. the inner blocking parameter (ib).

    Question 2 and 3 are standard autotuning problems. Choosing ib and the algorithmic vairant is done in termof nb. Question 1 is more subtle. Choosing nb is done at the matrix level (n) since it influences the granularityof the algorithm.

    reduction algorithm: Which reduction tree to use? Binary tree? Flat tree? Hybrid tree? Each of these choicesrepresent an algorithm change. No framework to accomodate this yet.

    scheduling: How to schedule all these tasks?

    1. static scheduling or dynamic scheduling?

    2. and in parallel distributed ...