Ë
    	ªgÔê  ã                  ó~  — d dl mZ d dlZd dlZd dlZd dlZd dlZd dlZd dl	m
Z d dlZd dlmZmZmZmZ d dlmZ d dlmZmZ ddlmZ ddlmZ dd	lmZmZ  ej<                  d
ej>                  ¬«        ej@                  e!«      Z" G d„ d«      Z# G d„ de#«      Z$ G d„ de#«      Z% G d„ de#«      Z& G d„ de#«      Z' G d„ de#«      Z(d„ Z) G d„ d«      Z*d<d„Z+ G d„ d«      Z, G d„ d«      Z- G d „ d!«      Z.d"„ Z/d#„ Z0d$„ Z1e!d%k(  r¸ e1«       Z2e2jf                  re"ji                  ejj                  «       e2jl                  Z7e2jp                  Z9ee2jt                     Z:e2jv                  r e<e2jv                  «      nd&Z;e2jz                  r e<e2jz                  «      ndZ=ej|                  j                  e9«      r!e"j                  d'e9› d(«        eAd'e9› d(«      ‚e2j„                  r'e2j†                  d)k(  re"j‰                  d*«       d+e2_B         ejŠ                  e7«      ZFe2j†                  d)k(  r" e&e2jŽ                  e2j                  e;e=¬,«      ZIne2j†                  d-k(  r- e'e2jŽ                  e2j„                  e2j”                  e:e;e=¬.«      ZInÝe2j†                  d/k(  r
 e$e;¬0«      ZInÄe2j†                  d1k(  r e%e2jŽ                  e;¬2«      ZIn e2j†                  d3k(  r|e:ej–                  k(  re"j‰                  d4«       ej˜                  Z:e7ZFe2jš                  e2jš                  d5k(  rd6ZMnd7ZMnd6ZM e(e2jœ                  e2jž                  e2j                   eM¬8«      ZIn eQd9e2j†                  › «      ‚ e.eFe2j”                  e2j¤                  e2j¦                  eI¬:«      ZTeTj«                  «        eTjŒ                  j­                  e9d;«       yy)=é    )ÚannotationsN)Ú
GraphProtoÚ
ModelProtoÚ	NodeProtoÚTensorProto)Úversion)Úquantize_matmul_4bitsÚquantize_qdq_matmul_4bitsé   )ÚCalibrationDataReader)Ú	ONNXModel)ÚQuantFormatÚattribute_to_kwargz2%(asctime)s %(name)s [%(levelname)s] - %(message)s)ÚformatÚlevelc                  ó(   — e Zd Z	 	 d	 	 	 	 	 	 	 dd„Zy)ÚWeightOnlyQuantConfigNc                ó„   — || _         || _        |rt        |«      ndh| _        |rt	        |«      | _        ydddœ| _        y)a§  This is the Base class for Weight Only blockwise quantization Configuration.

        Args:
            algorithm:
                weight only quantize algorithm name.
            quant_format: QuantFormat{QOperator, QDQ}.
                QOperator format quantizes the model with quantized operators directly.
                QDQ format quantize the model by inserting QuantizeLinear/DeQuantizeLinear on the tensor.
            op_types_to_quantize (optional):
                set of operator types to quantize. Default {MatMul}
            quant_axes (dict[str, int], optional):
                op:axis, which axis to quantize for an op. Default {MatMul: 0, Gather: 1}
        ÚMatMulr   r   )r   ÚGatherN)Ú	algorithmÚquant_formatÚsetÚop_types_to_quantizeÚdictÚ
quant_axes)Úselfr   r   r   r   s        úd/var/www/openai/venv/lib/python3.12/site-packages/onnxruntime/quantization/matmul_4bits_quantizer.pyÚ__init__zWeightOnlyQuantConfig.__init__    sC   € ð( #ˆŒØ(ˆÔÙAU¤CÐ(<Ô$=Ð\dÐ[eˆÔ!Ù.8œ$˜zÓ*ˆÈÐVWÑ>Xˆó    ©NN)r   Ústrr   r   r   útuple[str, ...] | Noner   ú"tuple[tuple[str, int], ...] | None)Ú__name__Ú
__module__Ú__qualname__r   © r    r   r   r      s:   „ ð
 8<Ø9=ðYàðYð "ðYð 5ð	Yð
 7ôYr    r   c                  ó>   ‡ — e Zd Zdej                  df	 dˆ fd„Zˆ xZS )ÚRTNWeightOnlyQuantConfigNc                ót   •— |t         j                  k(  sJ d«       ‚|€i }t        ‰|   d||¬«       || _        y)a¦  
        This is a class for round-to-nearest (RTN) algorithm Weight Only Quant Configuration.
        RTN is the most straightforward way to quantize weight using scale maps.

        Args:
            ratios:
                percentile of clip. Defaults to {}.
            quant_format (QuantFormat{QOperator, QDQ}, optional):
                QOperator format quantizes the model with quantized operators directly.
                QDQ format quantize the model by inserting QuantizeLinear/DeQuantizeLinear on the tensor.
                Defaults to QuantFormat.QOperator.
            op_types_to_quantize (optional):
                set of operator types to quantize.
        z"RTN only supports QOperator formatNÚRTN©r   r   r   )r   Ú	QOperatorÚsuperr   Úratios)r   r0   r   r   Ú	__class__s       €r   r   z!RTNWeightOnlyQuantConfig.__init__;   sM   ø€ ð( œ{×4Ñ4Ò4ÐZÐ6ZÓZÐ4àˆ>ØˆFÜ‰ÑØØ%Ø!5ð 	ô 	
ð
 ˆr    )r   r#   ©r%   r&   r'   r   r.   r   Ú__classcell__©r1   s   @r   r*   r*   :   s(   ø„ ð Ø ×*Ñ*Ø7;ð	ð 5÷	ñ r    r*   c                  óL   ‡ — e Zd Zddddddej                  df	 	 	 dˆ fd„Zˆ xZS )ÚGPTQWeightOnlyQuantConfigNg{®Gáz„?é€   FTc	                ó²   •— |t         j                  k(  sJ d«       ‚t        ‰	|   d||¬«       || _        || _        || _        || _        || _        || _	        y)a  
        This is a class for GPTQ algorithm Weight Only Quant Configuration.
        GPTQ algorithm provides more accurate quantization but requires more computational resources.

        Args:
            calibration_data_reader:
                a calibration data reader. It enumerates calibration data and generates inputs for the original model.
            percdamp:
                percent of the average Hessian diagonal to use for dampening.
            block_size (int, optional):
                channel number in one block to execute a GPTQ quantization iteration.
            actorder (bool, optional):
                whether rearrange Hessian matrix considering the diag's value.
            mse (bool, optional):
                whether get scale and zero point with mse error.
            perchannel (bool, optional):
                whether quantize weight per-channel.
            quant_format (QuantFormat{QOperator, QDQ}, optional):
                QOperator format quantizes the model with quantized operators directly.
                QDQ format quantize the model by inserting QuantizeLinear/DeQuantizeLinear on the tensor.
                Defaults to QuantFormat.QOperator.
            op_types_to_quantize (optional):
                set of operator types to quantize.
        z#GPTQ only supports QOperator formatÚGPTQr-   N)
r   r.   r/   r   Úcalibration_data_readerÚpercdampÚ
block_sizeÚactorderÚmseÚ
perchannel)
r   r:   r;   r<   r=   r>   r?   r   r   r1   s
            €r   r   z"GPTQWeightOnlyQuantConfig.__init__\   sh   ø€ ðF œ{×4Ñ4Ò4Ð[Ð6[Ó[Ð4ä‰ÑØØ%Ø!5ð 	ô 	
ð
 (?ˆÔ$Ø ˆŒØ$ˆŒØ ˆŒØˆŒØ$ˆr    )r:   zCalibrationDataReader | Noner   r#   r2   r4   s   @r   r6   r6   [   sA   ø„ ð AEØØØØØØ ×*Ñ*Ø7;ð/%à!=ð/%ð 5÷/%ñ /%r    r6   c                  óH   ‡ — e Zd Zdddej                  ddf	 	 	 dˆ fd„Zˆ xZS )ÚHQQWeightOnlyQuantConfigr7   é   r   Nc                óŠ   •— |t         j                  k(  sJ d«       ‚t        ‰|   d|||¬«       || _        || _        || _        y)a  
        This is a class for HQQ algorithm Weight Only Quant Configuration.
        HQQ algorithm quant weight without needing calibrate data.

        Args:
            block_size (int, optional):
                channel number in one block to execute a HQQ quantization iteration.
            bits (int, optional):
                how many bits to represent weight.
            axis (int, optional):
                0 or 1. which axis to quantize. https://arxiv.org/pdf/2309.15531.pdf
            quant_format (QuantFormat{QOperator, QDQ}, optional):
                QOperator format quantizes the model with quantized operators directly.
                QDQ format quantize the model by inserting QuantizeLinear/DeQuantizeLinear on the tensor.
                Defaults to QuantFormat.QOperator.
            op_types_to_quantize (optional):
                set of operator types to quantize.
            quant_axes (dict[str, int], optional):
                op:axis, which axis to quantize for an op. Default {MatMul: 0, Gather: 1}
        z"HQQ only supports QOperator formatÚHQQ©r   r   r   r   N)r   r.   r/   r   r<   ÚbitsÚaxis)r   r<   rF   rG   r   r   r   r1   s          €r   r   z!HQQWeightOnlyQuantConfig.__init__   sT   ø€ ð: œ{×4Ñ4Ò4ÐZÐ6ZÓZÐ4ä‰ÑØØ%Ø!5Ø!ð	 	ô 	
ð %ˆŒØˆŒ	Øˆ	r    )r   r#   r   r$   r2   r4   s   @r   rA   rA   Ž   s;   ø„ ð ØØØ ×*Ñ*Ø7;Ø9=ð'ð 5ð'ð 7÷'ñ 'r    rA   c                  óT   ‡ — e Zd Zdddej                  ddf	 	 	 	 	 	 	 	 	 dˆ fd„Zˆ xZS )ÚDefaultWeightOnlyQuantConfigr7   FNc                ód   •— t         ‰|   d|||¬«       || _        || _        d| _        || _        y)a´  
        This is a class for weight only affine quantization configuration.

        Args:
            block_size (int, optional):
                channel number in one block to execute an affine quantization iteration.
            is_symmetric (bool, optional):
                whether quantize weight symmetrically.
            accuracy_level (int, optional):
                Accuracy level of the 4-bit quantized MatMul computation.
                Refer to the MatMulNBits contrib op's 'accuracy_level' attribute for details.
                (https://github.com/microsoft/onnxruntime/blob/main/docs/ContribOperators.md#commicrosoftmatmulnbits)
            quant_format (QuantFormat{QOperator, QDQ}, optional):
                QOperator format quantizes the model with quantized operators directly.
                QDQ format quantize the model by inserting QuantizeLinear/DeQuantizeLinear on the tensor.
                Defaults to QuantFormat.QOperator.
            op_types_to_quantize (optional):
                set of operator types to quantize.
            quant_axes (dict[str, int], optional):
                op:axis, which axis to quantize for an op. Default {MatMul: 0, Gather: 1}
        ÚDEFAULTrE   rB   N)r/   r   r<   Úis_symmetricrF   Úaccuracy_level)r   r<   rL   rM   r   r   r   r1   s          €r   r   z%DefaultWeightOnlyQuantConfig.__init__º   sC   ø€ ô< 	‰ÑØØ%Ø!5Ø!ð	 	ô 	
ð %ˆŒØ(ˆÔØˆŒ	Ø,ˆÕr    )
r<   ÚintrL   ÚboolrM   ú
int | Noner   r#   r   r$   r2   r4   s   @r   rI   rI   ¹   sW   ø„ ð Ø"Ø%)Ø ×*Ñ*Ø7;Ø9=ð'-àð'-ð ð'-ð #ð	'-ð 5ð'-ð 7÷'-ñ '-r    rI   c                  ó2   ‡ — e Zd Z	 	 	 dˆ fd„	Zd„ Zd„ Zˆ xZS )ÚNVAWQWeightOnlyQuantConfigc                ót  •— 	 ddl }ddlm} || _         || _        	 ddlm} || _        	 dd	lm}m	}	 || _        |	| _	        t        ‰| -  dt        j                  dd¬«       | j                   j                  | j                   j                  j!                  «       rdnd«      }
| j#                  |||ddd|
ddddd¬«      }|| _        || _        y# t        $ r t	        d«       t        d«      d‚w xY w# t        $ r t	        d«       t        d«      d‚w xY w# t        $ r t	        d
«       t        d«      d‚w xY w)a=  
        Configuration for the nvidia_awq quantization method.

        Args:
            tokenizer_dir (str): pathof the tokenizer dir.
            dataset_name (str): Name of the dataset.
            cache_dir (str): Directory for caching.
            calibration_method (str): calib method for nvidia_awq.
        r   N)Ú
DataLoaderzfError: The 'torch' library is required but not installed. Please install it using 'pip install torch'.z torch is not installed. Exiting.)Úload_datasetzlError: The 'datasets' library is required but not installed. Please install it using 'pip install datasets'.z#datasets is not installed. Exiting.)Ú
AutoConfigÚAutoTokenizerztError: The 'transformers' library is required but not installed. Please install it using 'pip install transformers'.z'transformers is not installed. Exiting.Ú
nvidia_awqrE   ÚcudaÚcpué    r   i   TFr7   )Údataset_nameÚ
model_nameÚ	cache_dirÚ
calib_sizeÚ
batch_sizer<   ÚdeviceÚuse_fp16Úuse_buffer_shareÚadd_past_kv_inputsÚmax_calib_rows_to_loadÚadd_position_ids)ÚtorchÚtorch.utils.datarT   ÚImportErrorÚprintÚdatasetsrU   ÚtransformersrV   rW   r/   r   r   ÚQDQra   rY   Úis_availableÚget_calib_inputsr:   Úcalibration_method)r   Útokenizer_dirr\   r^   rp   rg   rT   rU   rV   rW   ra   Úcalib_inputsr1   s               €r   r   z#NVAWQWeightOnlyQuantConfig.__init__å   sm  ø€ ð"
	LÛÝ3àˆDŒJØ(ˆDŒOð	OÝ-à ,ˆDÔð		Sß>à(ˆDŒOØ!.ˆDÔô 	‰ÑØ"Ü$Ÿ™Ø!%Øð	 	ô 	
ð —‘×"Ñ"¨T¯Z©Z¯_©_×-IÑ-IÔ-K¡6ÐQVÓWˆà×,Ñ,Ø%Ø$ØØØØØØØ"Ø#Ø#&Ø!ð -ó 
ˆð (4ˆÔ$Ø"4ˆÕøôo ò 	LÜØxôô Ð@ÓAÀtÐKð		Lûô ò 	OÜØ~ôô ÐCÓDÈ$ÐNð		Oûô ò 	SÜð Gôô ÐGÓHÈdÐRð		Sús!   ƒC œC2 ªD Ã!C/Ã2!DÄ!D7c	           	     ób  — | j                   }	|}
|}t        |t        «      r<|	j                  |||	j                  ¬«      }
|	j                  |||	j                  ¬«      }|
j                  «       |j                  «       dœ}|rJ|j                  «       j                  d«      dz
  }|j                  |dk(  d«       |j                  «       |d<   |rã|r|	j                  n|	j                  }|
j                  \  }}|j                  }|j                  |j                  |j                  z  }}t!        |j"                  «      D ]q  }|	j%                  |||r|nd|||¬«      }|	j%                  |||r|nd|||¬«      }|j'                  d|› d|j                  «       d|› d	|j                  «       i«       Œs |S )
N)ra   Údtype)Ú	input_idsÚattention_maskéÿÿÿÿr   r   Úposition_idszpast_key_values.z.keyz.value)rg   Ú
isinstanceÚlistÚtensorÚint64Ú
contiguousÚlongÚcumsumÚmasked_fill_Úfloat16Úfloat32ÚshapeÚmax_position_embeddingsÚnum_key_value_headsÚhidden_sizeÚnum_attention_headsÚrangeÚnum_hidden_layersÚzerosÚupdate)r   ÚconfigÚinput_ids_argÚattention_mask_argrd   ra   rb   rc   rf   rg   ru   rv   Úinputsrx   Útorch_dtyper`   Úsequence_lengthÚmax_sequence_lengthÚ	num_headsÚ	head_sizeÚiÚpast_keyÚ
past_values                          r   Úmake_model_inputz+NVAWQWeightOnlyQuantConfig.make_model_input5  sÈ  € ð —
‘
ˆà!ˆ	Ø+ˆäm¤TÔ*ØŸ™ ]¸6ÈÏÉ˜ÓUˆIØ"Ÿ\™\Ð*<ÀVÐSX×S^ÑS^˜\Ó_ˆNð #×-Ñ-Ó/Ø,×7Ñ7Ó9ñ
ˆñ
 Ø)×.Ñ.Ó0×7Ñ7¸Ó;¸aÑ?ˆLØ×%Ñ% n¸Ñ&9¸1Ô=Ø%1×%<Ñ%<Ó%>ˆF>Ñ"áÙ+3˜%Ÿ-š-¸¿¹ˆKØ*3¯/©/Ñ'ˆJ˜Ø"(×"@Ñ"@Ðà×*Ñ*Ø×"Ñ" f×&@Ñ&@Ñ@ð !ˆIô ˜6×3Ñ3Ö4Ø Ÿ;™;ØØÙ+;Ñ'ÀØØ!Ø%ð 'ó ð #Ÿ[™[ØØÙ+;Ñ'ÀØØ!Ø%ð )ó 
ð —‘à*¨1¨#¨TÐ2°H×4GÑ4GÓ4IØ*¨1¨#¨VÐ4°j×6KÑ6KÓ6Mðõð# 5ð0 ˆr    c                ó4  — | j                   }| j                  }| j                  }|j                  |d|d¬«      }|j                  |d|d¬«      }|j	                  ddi«       |j
                  |_        ||k  sJ d«       ‚d|v r& |ddd	¬
«      j                  t        |«      «      }d}n d|v r |dd¬«      }d}nt        d|› d«      ‚||   d | }|j                  |ddd|¬«      }|j                  |«      }|d   }|d   }| j                  } |||d¬«      } |||d¬«      }t        |j                  «      t        |j                  «      k(  sJ ‚t        |«      t        |«      k(  sJ ‚||z  }g }t        |«      D ]   \  }}|j!                  |«       ||dz
  k(  sŒ  n g }t        |«      D ]   \  }}|j!                  |«       ||dz
  k(  sŒ  n t#        d|› dt        |«      › dt        |«      › d«       g }t        |«      D ]t  } ||    }!||    }"| j%                  ||!|"|
|||	|«      }#|#j'                  «       D $%ci c]$  \  }$}%|$|%j)                  «       j+                  «       “Œ& }#}$}%|j!                  |#«       Œv t#        dt        |«      › d«       |S c c}%}$w )NT)Úuse_auth_tokenr^   Útrust_remote_codeÚ	pad_tokenz[PAD]z8calib size should be no more than max_calib_rows_to_loadÚcnnÚcnn_dailymailz3.0.0Útrain)ÚnameÚsplitÚarticleÚpilezmit-han-lab/pile-val-backupÚ
validation)r¡   Útextz	dataset "z" not supportedÚpt)Úreturn_tensorsÚpaddingÚ
truncationÚ
max_lengthru   rv   F)r`   Úshuffler   z/
--Quantize-Script-- number_of_batched_samples=z, batch-input-ids-list-len=z, batched_attention_mask=Ú
z0
--Quantize-Script-- number of batched inputs = )rV   rW   rU   Úfrom_pretrainedÚadd_special_tokensÚ	eos_tokenrœ   Úselectrˆ   Ú
ValueErrorÚbatch_encode_plusÚtorT   ÚlenÚdatasetÚ	enumerateÚappendrj   r˜   ÚitemsrZ   Únumpy)&r   r\   r]   r^   r_   r`   r<   ra   rb   rc   rd   re   rf   Úauto_configÚauto_tokenizerrU   rŒ   Ú	tokenizerÚdataset2ÚcolumnÚbatch_encodedÚbatch_encoded_input_idsÚbatch_encoded_attention_maskÚdata_loaderÚcalib_dataloader_input_idsÚcalib_dataloader_attention_maskÚnumber_of_batched_samplesÚbatched_input_idsÚidxÚdataÚbatched_attention_maskÚbatched_inputs_listr•   ru   rv   r   Ú
input_nameÚtorch_tensors&                                         r   ro   z+NVAWQWeightOnlyQuantConfig.get_calib_inputsv  sH  € ð  —o‘oˆØ×+Ñ+ˆØ×(Ñ(ˆà×,Ñ,Ø t°yÐTXð -ó 
ˆð #×2Ñ2Ø t°yÐTXð 3ó 
ˆ	ð 	×$Ñ$ k°7Ð%;Ô<Ø'×1Ñ1ˆ	ÔàÐ3Ò3ÐoÐ5oÓoÐ3àLÑ Ù# O¸'ÈÔQ×XÑXÔY^Ð_uÓYvÓwˆHØ‰FØ|Ñ#Ù#Ð$AÈÔVˆHØ‰Fä˜y¨¨°oÐFÓGÐGà˜FÑ# K ZÐ0ˆØ!×3Ñ3Ø T°4ÀDÐU_ð 4ó 
ˆð &×(Ñ(¨Ó0ˆØ"/°Ñ"<ÐØ'4Ð5EÑ'FÐ$ð —o‘oˆá%0Ð1HÐU_ÐinÔ%oÐ"Ù*5Ø(°ZÈô+
Ð'ô Ð-×5Ñ5Ó6¼#Ð>]×>eÑ>eÓ:fÒfÐfÐfÜÐ-Ó.´#Ð6UÓ2VÒVÐVÐVà$.°*Ñ$<Ð!àÐÜ"Ð#=Ö>‰IˆCØ×$Ñ$ TÔ*ØÐ0°1Ñ4Ó5Ùð ?ð
 "$ÐÜ"Ð#BÖC‰IˆCØ"×)Ñ)¨$Ô/ØÐ0°1Ñ4Ó5Ùð Dô
 	Ø>Ð?XÐ>Yð Z(Ü(+Ð,=Ó(>Ð'?Ð?XÔY\Ð]sÓYtÐXuÐuwðyô	
ð
 !ÐÜÐ0Ö1ˆAØ)¨!Ñ,ˆIØ3°AÑ6ˆNà×*Ñ*ØØØØ"ØØØ Ø ó	ˆFð ^d×]iÑ]iÔ]kÔlÑ]kÑAYÀÈ\j ,×"2Ñ"2Ó"4×":Ñ":Ó"<Ñ<Ð]kˆFÑlØ×&Ñ& vÕ.ð 2ô" 	ÐAÄ#ÐFYÓBZÐA[Ð[]Ð^Ô_Ø"Ð"ùó	 ms   È;)J)r   ú./cacheÚawq_lite)r%   r&   r'   r   r˜   ro   r3   r4   s   @r   rR   rR   ä   s!   ø„ ð ØØ%õN5ò`?öBa#r    rR   c                óP   — t        |t        j                  | |z  «      z  «      | k(  S ©N)rN   ÚnpÚceil)Úval1Úval2s     r   Úis_divisiblerÕ   Ú  s$   € Üˆt”b—g‘g˜d T™kÓ*Ñ*Ó+¨tÑ3Ð3r    c                  ó^   — e Zd Z	 	 dd„Ze	 	 	 d	 	 	 	 	 d	d„«       Zed„ «       Z	 d
d„Zdd„Zy)ÚHQQWeightOnlyQuantizerc                ó   — || _         y rÐ   ©rŒ   ©r   rŒ   s     r   r   zHQQWeightOnlyQuantizer.__init__ß  ó   € ð ˆr    Nc                ó²  ‡— dd l Š|€dddddœn|}|d   |d   |d	   |d
   f\  }}}	}
| j                  r‰j                  n‰j                  }| j	                  |«      }|j	                  |«      }|j	                  |«      }|fˆfd„	}d}t        |
«      D ]»  }‰j                  ||z  |z   «      j                  |d   |d   «      }||z
  |z  } |||z
  |«      }‰j                  |||z
  |z  z
  |d¬«      }||	z  }t        ‰j                  ||z
  «      j                  «       «      }|r t        |t        j                  |d«      «       ||k  r|}Œ» n ~~~~||fS )Nr   gffffffæ?g      $@g)\Âõ(ð?é   )Úlp_normÚbetaÚkappaÚitersrÞ   rß   rà   rá   c           
     óŽ  •— |dk(  rL‰j                  | «      ‰j                  j                  j                  ‰j	                  | «      d|z  z
  «      z  S ‰j                  | «      ‰j                  j                  j                  ‰j	                  | «      d|z  ‰j                  ‰j	                  | «      dz   |dz
  «      z  z
  «      z  S )Nr   ç      ð?g:Œ0âŽyE>)ÚsignÚnnÚ
functionalÚreluÚabsÚpow)Úxrß   Úprg   s      €r   Ú	shrink_opz:HQQWeightOnlyQuantizer.optimize_weights.<locals>.shrink_opÿ  s¨   ø€ ØAŠvØ—z‘z !“} u§x¡x×':Ñ':×'?Ñ'?ÀÇ	Á	È!ÃÈsÐUYÉzÑ@YÓ'ZÑZÐZà—z‘z !“} u§x¡x×':Ñ':×'?Ñ'?Ø—I‘I˜a“L C¨$¡J°%·)±)¸E¿I¹IÀa»LÈ4Ñ<OÐQRÐUVÑQVÓ2WÑ#WÑWó(ñ ð r    g     ˆÃ@r   T©rG   Úkeepdimé   )rg   Úis_cudar   r‚   r³   rˆ   ÚroundÚclampÚmeanÚfloatrè   rj   rÑ   )r{   ÚscaleÚzeroÚmin_maxrG   Ú
opt_paramsÚverboserÞ   rß   rà   rá   rt   Úw_frì   Ú
best_errorr•   Úw_qÚw_rÚw_eÚcurrent_errorrg   s                       @r   Úoptimize_weightsz'HQQWeightOnlyQuantizer.optimize_weightsæ  s|  ø€ ó 	àR\ÐRd ¨c¸DÈ2ÒNÐjtˆ
àyÑ!ØvÑØwÑØwÑð	'
Ñ#ˆu˜eð "(§¢—’°U·]±]ˆØi‰i˜ÓˆØ—‘˜“ˆØw‰wu‹~ˆà!(õ 	ð ˆ
Üu–ˆAØ—+‘+˜c E™k¨DÑ0Ó1×7Ñ7¸À¹
ÀGÈAÁJÓOˆCØ˜‘: Ñ&ˆCÙ˜C #™I tÓ,ˆCØ—:‘:˜c S¨3¡Y°%Ñ$7Ñ7¸dÈD:ÓQˆDØE‰MˆDä! %§)¡)¨C°#©IÓ"6×";Ñ";Ó"=Ó>ˆMÙÜaœŸ™ -°Ó3Ô4Ø˜zÒ)Ø*‘
áð ð c˜3àdˆ{Ðr    c           	     ó  — | j                   d   |j                   d   k(  r|j                  }| j                  } |dv rA| j                  «       dz  |z  }t        |«      D ]  }| dd xxx ||d |…   ||z  z  z  ccc Œ y t	        d«      ‚)Nr   )é   rB   é   r  zOnly 2,4,8 bits are supported.)rƒ   ÚTÚelement_sizerˆ   ÚNotImplementedError)Úpack_tensorÚori_int_tensorrF   Úcompress_ratioÚjs        r   Úpack_on_row_fast_248bitz.HQQWeightOnlyQuantizer.pack_on_row_fast_248bit  s˜   € à×Ñ˜QÑ >×#7Ñ#7¸Ñ#:Ò:Ø+×-Ñ-ˆNØ%Ÿ-™-ˆKØ9ÑØ(×5Ñ5Ó7¸!Ñ;¸tÑCˆNÜ˜>Ö*Ø˜A˜B“ >°!Ð2C°^Ð2CÑ#DÈÐQRÉÑ#TÑT”ñ +ô &Ð&FÓGÐGr    c                ó<  — dd l }|j                  «       }	|	j                  }
||
|   |z  z
  |z  }|dk(  r+|j                  j                  j                  |	d|fdd«      }	n,|j                  j                  j                  |	ddd|fdd«      }	|	j                  }|-|r+|dk(  r|	j                  d|g«      n|	j                  |dg«      }	|du r#|	j                  «       |	j                  «       }}d}n,|	j                  |d¬«      d   }|	j                  |d¬«      d   }d|z  dz
  }d}||g}|||z
  z  j                  d	¬
«      }||z
  }|dk(  j                  «       j                  «       dkD  r|||dk(  <   ||z  j                  d	¬
«      }| |z  }|r|j                  |«      }|r| j                  |	||||¬«      \  }}|j                  |	|z  |z   «      j                  |d   |d   «      }|j                  |«      j                  «       }d|z  }|dk(  r+|j                  |d   d«      }|j                  |d   d«      }n*|j                  d|d   «      }|j                  d|d   «      }~	~~||j                  |j                   «      |j                  |j                   «      fS )Nr   r   Úconstantrw   FTrí   r  g     ˆÓ@)Úmax)r{   rõ   rö   r÷   rG   rã   )rg   rô   rƒ   rå   ræ   ÚpadÚreshapeÚminr  rò   ÚsumÚitemrñ   r   rN   r³   rt   )r   r{   rF   Úchannel_wiseÚ
group_sizeÚoptimizeÚ
round_zerorG   rg   ÚweightÚ	ori_shapeÚpad_lenrƒ   Ú_minÚ_maxÚmax_vÚmin_vr÷   rõ   Úmin_max_axisrö   rü   s                         r   Úquantize_internalz(HQQWeightOnlyQuantizer.quantize_internal(  s¶  € ó 	à—‘“ˆØ—L‘Lˆ	à 	¨$¡°*Ñ <Ñ<À
ÑJˆØ1Š9Ø—X‘X×(Ñ(×,Ñ,¨V°a¸°\À:ÈqÓQ‰Fà—X‘X×(Ñ(×,Ñ,¨V°a¸¸A¸wÐ5GÈÐUVÓWˆFØ—‘ˆð Ð"©Ø:>À!º)V—^‘^ R¨Ð$4Ô5È&Ï.É.ÐZdÐfhÐYiÓJjˆFð ˜5Ñ ØŸ™› v§z¡z£|$ˆDØ‰Hà—:‘: 4°:Ó6°qÑ9ˆDØ—:‘: 4°:Ó6°qÑ9ˆDà4‘˜!‘ˆØˆØ˜%.ˆð ˜$ ™+Ñ&×-Ñ-°#Ð-Ó6ˆà˜d‘{ˆØ˜AÑ×"Ñ"Ó$×)Ñ)Ó+¨aÒ/Ø.3ˆL˜¨Ñ*Ñ+Ø˜\Ñ)×0Ñ0°SÐ0Ó9ˆEØˆuu‰}ˆáØ—;‘;˜tÓ$ˆDñ Ø×/Ñ/°vÀUÐQUÐ_fÐmqÐ/Ór‰KˆE4ð k‰k˜& 5™.¨4Ñ/Ó0×6Ñ6°w¸q±zÀ7È1Á:ÓNˆØk‰k˜%Ó ×$Ñ$Ó&ˆàe‘ˆØ1Š9Ø—M‘M %¨¡(¨BÓ/ˆEØ—<‘<  a¡¨"Ó-‰Dà—M‘M " e¨B¡iÓ0ˆEØ—<‘<  E¨"¡IÓ.ˆDàD˜$àE—H‘H˜VŸ\™\Ó*¨D¯G©G°F·L±LÓ,AÐAÐAr    c                ó~	  — |j                   dk(  rt        d«      ‚ddl}t        j	                  d|j
                  › d«       |j                  d   }t        ||«      \  }}|€t        j	                  d«       |gS t        j                  j                  |«      }t        |j                  «      d	k7  rt        j	                  d
«       |gS |j                  |«      }|j                  j                  «       r|j                  «       }| j!                  |j"                  | j$                  j&                  | j$                  j(                  ¬«      \  }	}
}|	j+                  «       }	|
j+                  «       }
|j+                  «       }|j-                  |	j                  d   |	j                  d   d	z  f|j.                  |	j0                  ¬«      }| j3                  ||	| j$                  j&                  «       |
j5                  «       j7                  «       }|j5                  «       j7                  «       }|j9                  d«      }|j9                  d«      }|j                  \  }}| j$                  j(                  }|d	z  }||z   dz
  |z  }|j9                  |||«      }t        j                  j;                  |j5                  «       j7                  «       «      }|j
                  dz   |_        |j                  D ].  }|j
                  |k(  sŒ|j                  j=                  |«        n t        j                  j;                  |«      }|j
                  dz   |_        |j>                  jA                  ||g«       |j                  d   |j
                  |j
                  g}t        j                  j;                  |«      }|j
                  dz   |_        |j>                  jA                  |g«       |jC                  |j
                  «       i }|j                  \  }}||d<   ||d<   | j$                  j&                  |d<   | j$                  j(                  |d<   t        jD                  jF                  	 d||jH                  d   g|j
                  r|j
                  dz   ndddœ|¤Ž}t        j	                  d|j
                  › d«       |gS )á½  
        Target node:        QOperator node:            QDQ nodes:
        MatMul              MatMulNBits                DeQuantizeLinear -> MatMul
        Gather              GatherBlockQuantized       Gather, Gather, Gather (optional) -> DequantizeLinear
        If the node is target node with fp32 or fp16 const weight, quantize the weight to int4 and
        return the new nodes.
        If QOperator format, return the corresponding QOperator nodes.
        If QDQ format, return the corresdponging QDQ nodes.
        Gather (quantized data) + Gather (scales) + Gather (optional, zero points) -> DequantizeLinear is
        not supported yet because Gather does not support int4 data.
        r   z/Gather quantization is not supported yet in HQQr   Nústart to quantize ú ...r   ú2MatMul doesn't have const weight. Skip to quantizer  ú)MatMul weight is not 2D. Skip to quantize)rF   r  )rt   ra   rw   Ú_Q4Ú_scalesÚ_zero_pointsÚKÚNrF   r<   Ú úcom.microsoft©r   Úoutputsr    Údomainúcomplete quantization of ©ÚMatMulNBits)%Úop_typer  rg   ÚloggerÚinfor    ÚinputÚget_initializerÚonnxÚnumpy_helperÚto_arrayr´   rƒ   Ú
from_numpyrY   rn   r   r  rŒ   rF   r<   r}   rŠ   Úuint8ra   r  rZ   r¹   r  Ú
from_arrayÚremoveÚinitializerÚextendr·   ÚhelperÚ	make_nodeÚoutput)r   ÚnodeÚgraph_stackrg   Úinput_bÚb_pbÚbs_graphÚb_arrayÚb_array_torchÚquant_weight_torchÚscales_torchÚzero_points_torchÚpacked_torchÚscalesÚzero_pointsÚrowsÚcolsr<   Ú	blob_sizeÚk_blocksÚb_quantr7  Úscales_tensorÚinput_namesÚ	zp_tensorÚkwargsÚmatmul_q4_nodes                              r   ÚquantizezHQQWeightOnlyQuantizer.quantizei  s  € ð <‰<˜8Ò#Ü%Ð&WÓXÐXãä‰Ð(¨¯©¨°4Ð8Ô9Ø—*‘*˜Q‘-ˆÜ(¨°+Ó>‰ˆˆhØˆ<ÜK‰KÐLÔMØ6ˆMä×#Ñ#×,Ñ,¨TÓ2ˆÜˆw}‰}Ó Ò"ÜK‰KÐCÔDØ6ˆMØ×(Ñ(¨Ó1ˆØ:‰:×"Ñ"Ô$Ø)×.Ñ.Ó0ˆMØ>B×>TÑ>TØO‰O $§+¡+×"2Ñ"2¸t¿{¹{×?UÑ?Uð ?Uó ?
Ñ;Ð˜LÐ*;ð 0×:Ñ:Ó<ÐØ#×.Ñ.Ó0ˆØ-×8Ñ8Ó:Ðà—{‘{Ø×%Ñ% aÑ(Ð*<×*BÑ*BÀ1Ñ*EÈÑ*JÐKØ—+‘+Ø%×,Ñ,ð #ó 
ˆð
 	×$Ñ$ \Ð3EÀtÇ{Á{×GWÑGWÔXØ×!Ñ!Ó#×)Ñ)Ó+ˆØ'×+Ñ+Ó-×3Ñ3Ó5ˆà—‘ Ó#ˆØ!×)Ñ)¨"Ó-ˆØ"×(Ñ(‰
ˆˆdØ—[‘[×+Ñ+ˆ
Ø !‘Oˆ	Ø˜:Ñ%¨Ñ)¨jÑ8ˆØ#×+Ñ+¨D°(¸IÓFˆä×#Ñ#×.Ñ.¨|×/?Ñ/?Ó/A×/GÑ/GÓ/IÓJˆØ—y‘y 5Ñ(ˆŒØ—^”^ˆEØz‰z˜WÓ$Ø—‘×%Ñ% eÔ,Ùð $ô
 ×)Ñ)×4Ñ4°VÓ<ˆØ!ŸY™Y¨Ñ2ˆÔØ×Ñ×#Ñ# W¨mÐ$<Ô=à—z‘z !‘} g§l¡l°M×4FÑ4FÐGˆÜ×%Ñ%×0Ñ0°Ó=ˆ	ØŸ™ ^Ñ3ˆ	ŒØ×Ñ×#Ñ# Y KÔ0Ø×Ñ˜9Ÿ>™>Ô*àˆØ—]‘]‰
ˆˆdØˆˆs‰Øˆˆs‰ØŸ™×)Ñ)ˆˆv‰Ø#Ÿ{™{×5Ñ5ˆˆ|ÑäŸ™×.Ñ.Øð
àØ—[‘[ ‘^Ð$Ø&*§i¢i—‘˜UÒ"°RØ"ñ
ð ñ
ˆô 	‰Ð/°·	±	¨{¸$Ð?Ô@àÐÐr    )rŒ   rA   )r   NF)r÷   z	list[int]rG   rN   rø   zdict | None)rB   Té@   TTr   ©rE  r   rF  úlist[GraphProto]Úreturnzlist[NodeProto])	r%   r&   r'   r   Ústaticmethodr   r  r   r\  r(   r    r   r×   r×   Þ  sw   „ ðà(óð ð Ø"&Øð2ð ð	2ð
 ð2ð  ò2ó ð2ðh ñ	Hó ð	Hð fgó?BôB[ r    r×   c                óš   — t        t        |«      dz
  dd«      D ]/  }||   }|j                  D ]  }|j                  | k(  sŒ||fc c S  Œ1 y)Nr   rw   r!   )rˆ   r´   r@  r    )r    Ú
graph_pathÚgidÚgraphr{   s        r   r8  r8  Ç  sR   € Ü”S˜“_ qÑ(¨"¨bÖ1ˆØ˜3‘ˆØ×'Ô'ˆFØ{‰{˜dÓ"Ø˜u}Ô$ñ (ð 2ð
 r    c                  ó   — e Zd Zdd„Zdd„Zdd„Zedd„«       Zedd„«       Zedd„«       Z	e	 	 	 	 	 	 	 	 	 	 dd„«       Z
dd„Zdd	„Zy
)ÚDefaultWeightOnlyQuantizerc                ó   — || _         y rÐ   rÙ   rÚ   s     r   r   z#DefaultWeightOnlyQuantizer.__init__Ñ  s	   € Øˆr    c           
     óz  — t        |j                  «      dk7  rt        d«      ‚|j                  \  }}| j                  j                  }||z   dz
  |z  }| j                  j
                  t        j                  k(  r´|dz  }||z  }||z
  }|dkD  rt        j                  |d|fdfd«      }t        j                  |||fd¬«      }	t        j                  ||dz   dz  z  d¬«      }
t        j                  ||z  |j                  ¬«      }t        |	|||
|||| j                  j                  «       n‰t        j                  ||z  dz   dz  d¬«      }	t        j                  ||z  dz   dz  d¬«      }
t        j                  ||f|j                  ¬«      }t        |	|||
|||| j                  j                  «       |	||
fS )	z24b quantize fp32 weight to int4 using C++ kernels.r  z9Current int4 block quantization only supports 2D tensors!r   r   )r   r   r  r=  ©rt   )r´   rƒ   r±   rŒ   r<   r   r   r.   rÑ   r  rŠ   rt   r	   rL   r
   )r   Ú
fp32weightrR  rS  r<   rU  rT  Úpadded_rowsr  ÚpackedÚ
zero_pointrP  s               r   Úint4_block_quantz+DefaultWeightOnlyQuantizer.int4_block_quantÔ  s°  € ô ˆz×ÑÓ  AÒ%ÜÐXÓYÐYØ×%Ñ%‰
ˆˆdà—[‘[×+Ñ+ˆ
Ø˜:Ñ%¨Ñ)¨jÑ8ˆà;‰;×#Ñ#¤{×'<Ñ'<Ò<Ø" a™ˆIØ" ZÑ/ˆKØ! DÑ(ˆGØ˜Š{ÜŸV™V J°!°W°¸vÐ0FÈ
ÓS
ô —X‘X˜t X¨yÐ9ÀÔIˆFÜŸ™ $¨8°a©<¸AÑ*=Ñ">ÀgÔNˆJÜ—X‘X˜t h™°z×7GÑ7GÔHˆFÜ!Ø˜
 F¨J¸
ÀDÈ$ÐPT×P[ÑP[×PhÑPhõô —X‘X˜t d™{¨Q™°1Ñ4¸GÔDˆFÜŸ™ 4¨(¡?°QÑ#6¸1Ñ"<ÀGÔLˆJÜ—X‘X˜x¨Ð.°j×6FÑ6FÔGˆFÜ%Ø˜
 F¨J¸
ÀDÈ$ÐPT×P[ÑP[×PhÑPhôð ˜ 
Ð+Ð+r    c                ó†
  — | j                   j                  rt        j                  nt        j                  }|j
                  d   }t        ||«      \  }}|€t        j                  d«       |gS t        j                  j                  |«      }t        |j                  «      dk7  rt        j                  d«       |gS | j                  |«      \  }}	}
| j                   j                  t         j"                  k(  r[t        j                  j%                  ||j&                  dz   «      }t        j                  j%                  |	|j&                  dz   «      }nut        j(                  j+                  |j&                  dz   ||j                  |j-                  «       d«      }t        j                  j%                  |	|j&                  d	z   «      }|j
                  D ].  }|j&                  |k(  sŒ|j
                  j/                  |«        n |j0                  j3                  ||g«       g }| j                   j                  t         j"                  k(  ri|j
                  d
   |j&                  |j&                  g}| j                   j                  sdt        j                  j%                  |
|j&                  dz   «      }|j5                  |j&                  «       |j0                  j3                  |g«       i }|j                  \  }}||d<   ||d<   d|d<   | j                   j6                  |d<   | j                   j8                  | j                   j8                  |d<   t        j(                  j:                  	 d||j<                  d
   g|j&                  r|j&                  dz   ndddœ|¤Ž}|j5                  |«       |S |j&                  |j&                  g}|j&                  dz   g}|j
                  d
   |d
   g}|j<                  d
   g}| j                   j                  st        j(                  j+                  |j&                  dz   ||	j                  |
j-                  «       d«      }|j5                  |j&                  «       |j0                  j3                  |g«       d
| j                   j6                  dœ}t        j(                  j:                  	 d|||j&                  r|j&                  dz   nddœ|¤Ž}t        j(                  j;                  d|||j&                  r|j&                  dz   nd¬«      }|j3                  ||g«       |S )z
        Quantize weight B of MatMul node to int4.
        Currently only support 2D constant matrix and axis 0 blockwise quantization.
        r   r%  r  r&  r'  r(  Ú_DQ_Q4TÚ
_DQ_scalesr   r)  r*  r+  rB   rF   r<   rM   r,  r-  r.  Ú_outputÚ_DQ_zero_points)rG   r<   )r   r/  r    r   Ú
_matmul_Q4r2  )ÚDequantizeLinear)rŒ   rL   r   ÚINT4ÚUINT4r7  r8  r5  r6  r9  r:  r;  r´   rƒ   ro  r   r   r.   r>  r    rB  Úmake_tensorÚtobytesr?  r@  rA  r·   r<   rM   rC  rD  )r   rE  rF  ÚqtyperG  Úb_tensorÚb_graphÚ	b_ndarrayrm  rP  rQ  rV  rW  r7  Úoutput_nodesrX  rY  rZ  rR  rS  r[  Údq_input_namesÚdq_output_namesÚmatmul_input_namesÚmatmul_output_namesÚ	dq_kwargsÚdq_nodeÚmatmul_nodes                               r   Úquantize_matmulz*DefaultWeightOnlyQuantizer.quantize_matmulö  sk  € ð
 %)§K¡K×$<Ò$<”× Ò Ä+×BSÑBSˆØ—*‘*˜Q‘-ˆÜ+¨G°[ÓAÑˆ'ØÐÜK‰KÐLÔMØ6ˆMä×%Ñ%×.Ñ.¨xÓ8ˆ	Üˆy‰Ó 1Ò$ÜK‰KÐCÔDØ6ˆMà&*×&;Ñ&;¸IÓ&FÑ#ˆ˜à;‰;×#Ñ#¤{×'<Ñ'<Ò<Ü×'Ñ'×2Ñ2°6¸8¿=¹=È5Ñ;PÓQˆGÜ ×-Ñ-×8Ñ8¸ÀÇÁÐQZÑAZÓ[‰Mä—k‘k×-Ñ-¨h¯m©m¸hÑ.FÈÈyÏÉÐ`f×`nÑ`nÓ`pÐrvÓwˆGÜ ×-Ñ-×8Ñ8¸ÀÇÁÐQ]ÑA]Ó^ˆMà—]”]ˆEØz‰z˜WÓ$Ø—‘×$Ñ$ UÔ+Ùð #ð
 	×Ñ×"Ñ" G¨]Ð#;Ô<àˆà;‰;×#Ñ#¤{×'<Ñ'<Ó<ØŸ:™: a™=¨'¯,©,¸×8JÑ8JÐKˆKØ—;‘;×+Ò+Ü ×-Ñ-×8Ñ8¸ÀhÇmÁmÐVdÑFdÓe	Ø×"Ñ" 9§>¡>Ô2Ø×#Ñ#×*Ñ*¨I¨;Ô7ØˆFØ"Ÿ™‰JˆD$ØˆF3‰KØˆF3‰KØˆF6‰NØ#'§;¡;×#9Ñ#9ˆF<Ñ Ø{‰{×)Ñ)Ð5Ø+/¯;©;×+EÑ+EÐ'Ñ(ä!Ÿ[™[×2Ñ2Øðà"ØŸ™ Q™Ð(Ø*.¯)ª)T—Y‘Y Ò&¸Ø&ñð ñˆNð ×Ñ Ô/ð8 Ðð5 &Ÿl™l¨M×,>Ñ,>Ð?ˆNØ&Ÿ|™|¨iÑ7Ð8ˆOØ"&§*¡*¨Q¡-°ÀÑ1CÐ!DÐØ#'§;¡;¨q¡>Ð"2ÐØ—;‘;×+Ò+Ü ŸK™K×3Ñ3Ø—M‘MÐ$5Ñ5°u¸f¿l¹lÈK×L_ÑL_ÓLaÐcgó	ð ×%Ñ% i§n¡nÔ5Ø×#Ñ#×*Ñ*¨I¨;Ô7Ø!"°$·+±+×2HÑ2HÑIˆIÜ—k‘k×+Ñ+Ø"ðà%Ø'Ø-1¯YªYT—Y‘Y Ò)¸Bñ	ð
 ñˆGô Ÿ+™+×/Ñ/ØØ)Ø+Ø15·²T—Y‘Y Ò-Àð	 0ó ˆKð ×Ñ ¨+Ð 6Ô7àÐr    c                ó¤  — t        j                  | dd¬«      }t        j                  | dd¬«      }t        j                  t        j                  |«      t        j                  |«      kD  ||«      }|dz  }t        j                  |dk(  d| |z  «      j                  «       j                  dd«      j                  t         j                  «      }||fS )Nr   T©rG   Úkeepdimsg       Àr   iøÿÿÿé   )	rÑ   r  r  Úwhererè   rñ   ÚclipÚastypeÚint8)rÈ   Úmax_valÚmin_valÚabs_maxrõ   Úquantized_slices         r   Úquant_slice_symmetricz0DefaultWeightOnlyQuantizer.quant_slice_symmetricO  s¤   € ä—&‘&˜ A°Ô5ˆÜ—&‘&˜ A°Ô5ˆÜ—(‘(œ2Ÿ6™6 '›?¬R¯V©V°G«_Ñ<¸gÀwÓOˆà˜$‘ˆÜŸ(™( 5¨A¡:¨q°$¸±,Ó?×EÑEÓG×LÑLÈRÐQRÓS×ZÑZÔ[]×[bÑ[bÓcˆà Ð%Ð%r    c                ó   — t        j                  | j                  dd¬«      d«      }t        j                  | j	                  dd¬«      d«      }||z
  dz  }t        j
                  |dk(  d| |z  «      j                  «       j                  dd«      j                  t         j                  «      }t        j
                  |dk(  d| |z  |z   «      j                  «       j                  dd«      j                  t         j                  «      }|||fS )Nr   Tr‰  r   g      .@r  é   )
rÑ   Úminimumr  Úmaximumr  rŒ  rñ   r  rŽ  r=  )rÈ   r‘  r  rõ   rn  r“  s         r   Úquant_slice_asymmetricz1DefaultWeightOnlyQuantizer.quant_slice_asymmetricZ  sæ   € ä—*‘*˜TŸX™X¨1°t˜XÓ<¸aÓ@ˆÜ—*‘*˜TŸX™X¨1°t˜XÓ<¸aÓ@ˆà˜7Ñ" dÑ*ˆÜ—X‘X˜e q™j¨!¨g¨X¸Ñ-=Ó>×DÑDÓF×KÑKÈAÈrÓR×YÑYÔZ\×ZbÑZbÓcˆ
ÜŸ(™( 5¨A¡:¨q°$¸±,ÀÑ2KÓL×RÑRÓT×YÑYÐZ[Ð]_Ó`×gÑgÔhj×hpÑhpÓqˆà  zÐ1Ð1r    c                óÈ   — | j                  d«      }t        |«      dz  dk7  rt        j                  |d«      }|ddd…   dz  |ddd…   dz  dz  z  }|j	                  d«      S )	z2Pack int8 data to int4 and store in uint8 ndarray.rw   r  r   Nr–  r   rB   r=  )r  r´   rÑ   r·   rŽ  )rÈ   Ú	data_flatÚquant_data_int4s      r   Úpack_int8_to_int4z,DefaultWeightOnlyQuantizer.pack_int8_to_int4e  so   € ð —L‘L Ó$ˆ	Üˆy‹>˜AÑ Ò"ÜŸ	™	 )¨QÓ/ˆIØ$¡S q S™>¨CÑ/°Y¸q¸tÀ!¸t±_ÀsÑ5JÈqÑ4PÑQˆà×%Ñ% gÓ.Ð.r    c                ó¨  — d}| j                   |   }d}t        | j                   «      D ]  \  }}||k  r||z  }Œ||kD  sŒ||z  }Œ ||z   dz
  |z  }	t        | j                   «      }
|	|
|<   | j                  |||f«      }t	        j
                  ||	|f| j                  ¬«      }|rt	        j
                  |||fd¬«      }n4t	        j
                  |||fd¬«      }t	        j
                  ||	|fd¬«      }t        d||«      D ]‹  }t        ||z   |«      }|dd…||…dd…f   }|rt        j                  |«      \  }}nt        j                  |«      \  }}}||dd…||…dd…f<   ||z  }||dd…||dz   …dd…f<   |rŒ{dd…||dz   …dd…f<   Œ t        j                  |«      }d}|st        j                  «      }|j                  |
«      }|||fS )zXQuantize ndarray data to int4 using numpy, return (quantized data, scales, zero points).r   rj  r  r=  r   N)rƒ   r¶   rz   r  rÑ   rŠ   rt   rˆ   r  rg  r”  r™  r  )rÈ   Úquantize_axisr<   rL   ÚmÚkÚnr•   ÚdimrU  Úscales_shapeÚdata_reshaperP  Úquant_data_int8Úzero_point_int8Úend_idxÚsliceÚquantized_slice_int8Úscale_sliceÚzero_point_slice_int8r
  rœ  Úzero_point_int4s                          r   Úquantize_ndarrayz+DefaultWeightOnlyQuantizer.quantize_ndarrayo  s  € ð ˆØJ‰J}Ñ%ˆØˆÜ §
¡
Ö+‰FˆAˆsØ=Ò ØS‘‘Ø]Ó"ØS‘‘ð	 ,ð ˜
‘N QÑ&¨:Ñ5ˆÜ˜DŸJ™JÓ'ˆØ&.ˆ]Ñ#à—|‘| Q¨¨1 IÓ.ˆÜ—‘˜1˜h¨Ð*°$·*±*Ô=ˆÙÜ Ÿh™h¨¨1¨a y¸Ô?‰Oä Ÿh™h¨¨1¨a y¸Ô@ˆOÜ Ÿh™h¨¨8°QÐ'7¸wÔGˆOô q˜!˜ZÖ(ˆAÜ˜!˜j™.¨!Ó,ˆGØ ¢ A g Iªq Ñ1ˆEáÜ4N×4dÑ4dÐejÓ4kÑ1Ð$¡kô /×EÑEÀeÓLñ IÐ$ kÐ3Hð 0DˆOšA˜q ˜yª!˜OÑ,ØZ‘ˆAØ(3ˆF’1a˜1˜q™5k¢1Ð$Ñ%ÚØ5J¢ 1¨¨A© ;²Ð 1Ò2ð )ô$ 5×FÑFÀÓWˆØˆÙÜ8×JÑJÈ?Ó[ˆOØ—‘ Ó-ˆØ ¨Ð7Ð7r    c                óú  — | j                   j                  t        j                  k(  sJ d«       ‚| j                   j                  rt
        j                  nt
        j                  }|j                  d   }t        ||«      \  }}|€t        j                  d«       |gS t        j                  j                  |«      }t        |j                   «      }| j                   j"                  j%                  dd«      }	| j                   j&                  }
|	|k  r|	| k\  sJ d«       ‚|
dk\  r|
dz
  |
z  dk(  sJ d«       ‚|	|z   |z  }	| j)                  ||	|
| j                   j                  «      \  }}}|j                  D ].  }|j*                  |k(  sŒ|j                  j-                  |«        n t        j.                  j1                  |j*                  d	z   ||j                   |j3                  «       d
«      }t        j                  j5                  ||j*                  dz   «      }|j*                  |j                  d   |j*                  g}|j6                  j9                  ||g«       | j                   j                  st        j.                  j1                  |j*                  dz   ||j                   |j3                  «       d
«      }|j;                  |j*                  «       |j6                  j9                  |g«       	 t        j.                  j=                  |d«      }||	|
dœ}t        j.                  j@                  	 d||jB                  d   g|j*                  r|j*                  d	z   ndddœ|¤Ž}|gS # t>        $ r d}Y Œdw xY w)z,Quantize weight data of Gather node to int4.z0Gather only supports QOperator format currently.r   z4Gather doesn't have const weight. Skip quantization.r   r   z&Invalid quantize axis for Gather node.é   z#Invalid block size for Gather node.r'  Tr(  r)  rG   )Úgather_axisrŸ  r<   r,  r-  r.  )ÚGatherBlockQuantized)"rŒ   r   r   r.   rL   r   rw  rx  r7  r8  r5  r6  r9  r:  r;  r´   rƒ   r   Úgetr<   r®  r    r?  rB  ry  rz  r>  r@  rA  r·   Úget_node_attr_valuer±   rC  rD  )r   rE  rF  r{  Údata_argÚdata_tensorprotoÚdata_graphprotoÚdata_ndarrayÚ	data_rankrŸ  r<   Úquantized_datarP  rQ  r7  Úquantized_data_tensorprotoÚscales_tensorprotorX  Úzp_tensorprotor±  rZ  Úgather_q4_nodes                         r   Úquantize_gatherz*DefaultWeightOnlyQuantizer.quantize_gather§  s0  € à{‰{×'Ñ'¬;×+@Ñ+@Ò@ÐtÐBtÓtÐ@à$(§K¡K×$<Ò$<”× Ò Ä+×BSÑBSˆØ—:‘:˜a‘=ˆÜ,;¸HÀkÓ,RÑ)Ð˜/ØÐ#ÜK‰KÐNÔOØ6ˆMä×(Ñ(×1Ñ1Ð2BÓCˆÜ˜×*Ñ*Ó+ˆ	ØŸ™×.Ñ.×2Ñ2°8¸QÓ?ˆØ—[‘[×+Ñ+ˆ
à˜yÒ(¨]¸y¸jÒ-HÐrÐJrÓrÐHØ˜RÒ j°1¡n¸
Ñ%BÀaÒ%GÐoÐJoÓoÐHà&¨Ñ2°iÑ?ˆØ.2×.CÑ.CØ˜-¨°T·[±[×5MÑ5Mó/
Ñ+ˆ˜ ð %×*Ô*ˆEØz‰z˜XÓ%Ø×%Ñ%×,Ñ,¨UÔ3Ùð +ô
 &*§[¡[×%<Ñ%<Ø×!Ñ! EÑ)¨5°,×2DÑ2DÀn×F\ÑF\ÓF^Ð`dó&
Ð"ô "×.Ñ.×9Ñ9¸&ÐBR×BWÑBWÐZcÑBcÓdÐØ1×6Ñ6¸¿
¹
À1¹ÐGY×G^ÑG^Ð_ˆØ×#Ñ#×*Ñ*Ð,FÐHZÐ+[Ô\Ø{‰{×'Ò'Ü!Ÿ[™[×4Ñ4Ø ×%Ñ%¨Ñ6¸¸v¿|¹|È[×M`ÑM`ÓMbÐdhóˆNð ×Ñ˜~×2Ñ2Ô3Ø×'Ñ'×.Ñ.°Ð/?Ô@ð	ÜŸ+™+×9Ñ9¸$ÀÓGˆKð
 'Ø*Ø$ñ
ˆô Ÿ™×.Ñ.Ø"ð
àØ—[‘[ ‘^Ð$Ø&*§i¢i—‘˜UÒ"°RØ"ñ
ð ñ
ˆð ÐÐøô% ò 	ØŠKð	ús   Ë5 M, Í,M:Í9M:c                óf  — t         j                  d|j                  › d«       |j                  dk(  r| j	                  ||«      }nH|j                  dk(  r| j                  ||«      }n&t         j                  d|j                  › d«       |g}t         j                  d|j                  › d«       |S )r"  r#  r$  r   r   zUnsupported operator z1 for weight only quantization. Skip quantization.r1  )r5  r6  r    r4  r‡  r¿  Úerror)r   rE  rF  Úresultss       r   r\  z#DefaultWeightOnlyQuantizer.quantizeç  s›   € ô 	‰Ð(¨¯©¨°4Ð8Ô9à<‰<˜8Ò#Ø×*Ñ*¨4°Ó=‰GØ\‰\˜XÒ%Ø×*Ñ*¨4°Ó=‰GäL‰LÐ0°·±°Ð>oÐpÔqØfˆGä‰Ð/°·	±	¨{¸$Ð?Ô@àˆr    N)rŒ   rI   )rk  znpt.ArrayLiker`  ú)tuple[np.ndarray, np.ndarray, np.ndarray]r^  )rÈ   ú
np.ndarrayr`  ztuple[np.ndarray, np.ndarray])rÈ   rÄ  r`  rÃ  )rÈ   rÄ  r`  rÄ  )
rÈ   rÄ  rŸ  rN   r<   rN   rL   rO   r`  z0tuple[np.ndarray, np.ndarray, np.ndarray | None])r%   r&   r'   r   ro  r‡  ra  r”  r™  r  r®  r¿  r\  r(   r    r   rg  rg  Ð  sž   „ óó ,óDWðr ò&ó ð&ð ò2ó ð2ð ò/ó ð/ð ð58Øð58àð58ð ð58ð ð	58ð
 
:ò58ó ð58ón> ô@r    rg  c                  ó    — e Zd Z	 	 dd„Zdd„Zy)ÚNVAWQWeightOnlyQuantizerc                ó   — || _         y rÐ   rÙ   rÚ   s     r   r   z!NVAWQWeightOnlyQuantizer.__init__  rÛ   r    c                ó  — 	 ddl m} t        j                  d«       | j                  j                  } ||| j                  j                  |¬«      }t        j                  d«       |S # t        $ r t        d«       t        d«      d‚w xY w)	zé
        Perform nvidia_awq quantization using ModelOpt's int4 quantize function.

        Args:
            model (ModelProto): The ONNX model to quantize.

        Returns:
            ModelProto: The quantized ONNX model.
        r   )r\  zlPlease ensure that the 'modelopt' package is installed. Please install it using pip install nvidia_modelopt.zXmodelopt is not installed. Please install it using pip install nvidia_modelopt. Exiting.Nz#Starting nvidia_awq quantization...)rp   r:   ú"Completed nvidia_awq quantization.)	Úmodelopt.onnx.quantization.int4r\  ri   rj   r5  r6  rŒ   r:   rp   )r   ÚmodelÚquantize_int4rr   Úquantized_models        r   Úquantize_awqz%NVAWQWeightOnlyQuantizer.quantize_awq	  s   € ð	ÝQô 	‰Ð9Ô:ð —{‘{×:Ñ:ˆñ (ØØ#Ÿ{™{×=Ñ=Ø$0ô
ˆô 	‰Ð8Ô9ØÐøô+ ò 	ÜØ~ôô Øjóàðð		ús   ‚A) Á)!B
N)rŒ   rR   )rË  úModelProto | strr`  r   )r%   r&   r'   r   rÎ  r(   r    r   rÆ  rÆ    s   „ ðà*óô!r    rÆ  c            	      óx   — e Zd ZdZdddddej
                  dddf		 	 	 	 	 	 	 	 	 	 	 	 	 	 	 d
d„Zdd„Zd„ Zd„ Z	d	„ Z
y)ÚMatMul4BitsQuantizera4  
    Target node:        QOperator node:            QDQ nodes:
    MatMul              MatMulNBits                DeQuantizeLinear -> MatMul
    Gather              GatherBlockQuantized       Gather, Gather, Gather (optional) -> DequantizeLinear

    Perform 4b quantization of constant weights for target nodes.
    If algo_config.quant_format is QOperator:
      - nodes are replaced by the corresponding QOperator nodes.
      - quantized weights are stored in the contrib ops.
    If algo_config.quant_format is QDQ:
      - the quantized weight is stored in a standard onnx node. For MatMul, it is DequantizeLinear. For Gather,
        it is the three Gathers, one for quantized data, one for scales and one for optional zero points.
      - The nodes are replaced by the corresponding QDQ nodes.
      - currently Gather is not supported in QDQ because Gather does not support int4 yet.
    Note:
      - for quantized gather, the memory usage of "DequantizeLinear + Gather" is the same as the original Gather
        during runtime. Therefor it is not recommended.
    r7   FNc                ój  — |€g }t        |t        «      rt        t        j                  |«      «      n
t        |«      | _        t        |t        «      r|nd | _        || _        || _        || _	        t        |«      | _        |rt        |«      nd | _        d | _        |
€t        ||||||	¬«      }
|
| _        |
j                   dk(  rt#        | j                  «      | _        y |
j                   dk(  rt%        | j                  «      | _        y |
j                   dk(  rt'        | j                  «      | _        y y )N©r<   rL   rM   r   r   r   rD   rK   rX   )ry   r"   r   r9  ÚloadrË  Ú
model_pathr<   rL   rM   r   Únodes_to_excludeÚnodes_to_includeÚnode_quantizerrI   Úalgo_configr   r×   rg  rÆ  )r   rË  r<   rL   rM   rÖ  r×  r   r   r   rÙ  s              r   r   zMatMul4BitsQuantizer.__init__B  s  € ð Ð#Ø!ÐÜ4>¸uÄcÔ4J”YœtŸy™y¨Ó/Ô0ÔPYÐZ_ÓP`ˆŒ
Ü#-¨e´SÔ#9™%¸tˆŒØ$ˆŒØ(ˆÔØ,ˆÔÜ #Ð$4Ó 5ˆÔÙ9I¤Ð$4Ô 5ÈtˆÔØ"ˆÔàÐÜ6Ø%Ø)Ø-Ø)Ø%9Ø%ôˆKð 'ˆÔØ× Ñ  EÒ)Ü"8¸×9IÑ9IÓ"JˆDÕØ×"Ñ" iÒ/Ü"<¸T×=MÑ=MÓ"NˆDÕØ×"Ñ" lÒ2Ü":¸4×;KÑ;KÓ"LˆDÕð 3r    c                ó  — g }|d   }|j                   D ]§  }|j                  D cg c]R  }|j                  t        j                  j
                  k(  s'|j                  t        j                  j                  k(  r|‘ŒT }}t        |«      rVi }|j                  D ]ù  }|j                  t        j                  j
                  k(  r9|j                  |j                  «       |j                  | j                  |«      i}n†|j                  t        j                  j                  k(  rTg }	|j                  D ]4  }
|j                  |
«       |	j                  | j                  |«      g«       Œ6 |j                  |	i}nt        |«      }|j                  |«       Œû t        j                   j"                  |j$                  |j&                  |j(                  fd|j                  i|¤Ž}g }|j                  | j*                  v r't,        j/                  d|j                  › d«       |g}n‰| j0                  r|j                  | j0                  v s"|j$                  | j2                  j4                  v r| j6                  j9                  ||«      }n&t,        j/                  d|j                  › d«       |g}|j                  |«       Œª |j;                  d«       |j                   j                  |«       |j=                  «        |S c c}w )Nrw   r    zexclude to quantize z$ as specified by nodes_to_exclude...zskip to quantize r$  rE  )rE  Ú	attributeÚtyper9  ÚAttributeProtoÚGRAPHÚGRAPHSr´   r·   Úgr    Ú_process_subgraphÚgraphsrA  r   r‹   rB  rC  r4  r7  rD  rÖ  r5  r6  r×  rÙ  r   rØ  r\  Ú
ClearFieldÚpop)r   rF  Ú	new_nodesre  rE  ÚattrÚgraph_attrsrZ  ÚkvÚvalueÚsubgraphÚ	out_nodess               r   rá  z&MatMul4BitsQuantizer._process_subgraphk  sv  € Øˆ	Ø˜B‘ˆà—J•JˆDð !ŸNšNóá*DØ—9‘9¤× 3Ñ 3× 9Ñ 9Ò9¸T¿Y¹YÌ$×J]ÑJ]×JdÑJdÒ=dò Ø*ð ð ô
 ;ÕØØ ŸNœNDØ—y‘y¤D×$7Ñ$7×$=Ñ$=Ò=à#×*Ñ*¨4¯6©6Ô2Ø"Ÿi™i¨×)?Ñ)?ÀÓ)LÐM™ØŸ™¤d×&9Ñ&9×&@Ñ&@Ò@Ø "˜Ø(,¯¬˜Hà'×.Ñ.¨xÔ8Ø!ŸL™L¨$×*@Ñ*@ÀÓ*MÐ)NÕOð )4ð #Ÿi™i¨Ð/™ä/°Ó5˜Ø—M‘M "Õ%ð +ô —{‘{×,Ñ,Ø—L‘L $§*¡*¨d¯k©kñØ@DÇ	Á	ðØMSñð ˆIØy‰y˜D×1Ñ1Ñ1Ü—‘Ð2°4·9±9°+Ð=aÐbÔcØ!˜F‘	Ø×'Ò'¨D¯I©I¸×9NÑ9NÑ,NØ—‘ × 0Ñ 0× EÑ EÑEà ×/Ñ/×8Ñ8¸¸{ÓK‘	ä—‘Ð/°·	±	¨{¸$Ð?Ô@Ø!˜F	Ø×Ñ˜YÖ'ðK ðN 	×Ñ˜Ô Ø
‰
×Ñ˜)Ô$Ø‰ÔØˆùòSs   ¦AK=c           	     óh  — i }d| j                   | j                  rdnddœ}| j                  j                  j                  j                  D ]_  }|j
                  dv sŒt        |j                  D cg c]  }| j                  j                  |«      du ‘Œ! c}«      rŒQ|||j                  <   Œa |S c c}w )z3Generate weight only quant configuration for nodes.rB   ÚsymÚasym)rF   r  Úscheme©r   N)
r<   rL   rË  re  rE  r4  Úallr7  r8  r    )r   Úq4_node_configÚtemplate_config_q4rE  r•   s        r   Ú_generate_q4_node_configz-MatMul4BitsQuantizer._generate_q4_node_config›  sŸ   € àˆàØŸ/™/Ø#×0Ò0‘e°fñ
Ðð
 —J‘J×$Ñ$×*Ñ*×/Ô/ˆDØ|‰|˜zÒ)ÜÈ4Ï:Ê:ÓVÉ:Àa˜DŸJ™J×6Ñ6°qÓ9¸TÒAÈ:ÑVÕWØ0BN 4§9¡9Ò-ð 0ð Ðùò Ws   Á0$B/
c                ó^  ‡ — ˆ fd„}i }‰ j                   ‰ j                   |d<   ‰ j                  «       }‰ j                  j                  }t        j                  d|› d«       |dk(  r\ddlm} ‰ j                  j                  |d	<    |d‰ j                  ‰ j                  n‰ j                  j                  |d
œ|¤Ž‰ _
        nÑ|dk(  rÌddlm} ‰ j                  j                  |d<   ‰ j                  j                  |d<   ‰ j                  j                  |d<   ‰ j                  j                  |d<   ‰ j                  j                   |d<   d|d<    |«       } |d‰ j                  ‰ j                  n‰ j                  j                  ||dœ|¤Ž‰ _
        t        j                  d|› d«       y)u  4b quantize a model with RTN or GPTQ algorithm. Please refer to
        https://github.com/intel/neural-compressor/blob/master/docs/source/quantization_weight_only.md
        for more details on weight only quantization using IntelÂ® Neural Compressor.
        c               3  óz   •K  — t        j                  ‰j                  j                  «      } | D ]  }|d f–— Œ
 y ­wrÐ   )ÚcopyÚdeepcopyrÙ  r:   )Údata_readerrÈ   r   s     €r   Úinc_dataloaderz<MatMul4BitsQuantizer.int4_quant_algo.<locals>.inc_dataloader¯  s5   øè ø€ ÜŸ-™-¨×(8Ñ(8×(PÑ(PÓQˆKÛ#Ø˜DjÓ ñ $ùs   ƒ8;NrM   zstart to quantize model with z algorithm...r,   r   )Úrtn_quantizer0   )rË  Úweight_configr9   )Úgptq_quantizer;   Ú	blocksizer=   r>   r?   rw   Ú	n_samples)rË  rü  Ú
dataloaderz$complete quantization of model with z algorithm.r(   )rM   rô  rÙ  r   r5  r6  Ú.neural_compressor.adaptor.ox_utils.weight_onlyrû  r0   rÕ  rË  rý  r;   r<   r=   r>   r?   )r   rú  rZ  Úweight_only_node_configr   rû  rý  r   s   `       r   Úint4_quant_algoz$MatMul4BitsQuantizer.int4_quant_algo©  sž  ø€ ô	!ð
 ˆØ×ÑÐ*Ø'+×':Ñ':ˆFÐ#Ñ$Ø"&×"?Ñ"?Ó"AÐà×$Ñ$×.Ñ.ˆ	Ü‰Ð3°I°;¸mÐLÔMØ˜ÒÝSà#×/Ñ/×6Ñ6ˆF8Ñá%ð Ø)-¯©Ð)Dd—o’oÈ$Ï*É*×JZÑJZØ5ñð ñˆDJð
 ˜&Ò ÝTà!%×!1Ñ!1×!:Ñ!:ˆF:ÑØ"&×"2Ñ"2×"=Ñ"=ˆF;ÑØ!%×!1Ñ!1×!:Ñ!:ˆF:ÑØ ×,Ñ,×0Ñ0ˆF5‰MØ#'×#3Ñ#3×#>Ñ#>ˆF<Ñ Ø"$ˆF;ÑÙ'Ó)ˆJá&ð Ø)-¯©Ð)Dd—o’oÈ$Ï*É*×JZÑJZØ5Ø%ñð ñ	ˆDŒJô 	‰Ð:¸9¸+À[ÐQÕRr    c                ó|  — | j                   j                  dv rD| j                  j                  «       g}| j                   j                  t
        j                  k(  r| j                  j                  dd«       | j                   j                  t
        j                  k(  sd| j                   j                  v r{| j                  j                  «       }|D ]\  }|j                  dv sŒ|j                  dk  sŒ"t        j                  d«       | j                  j                  |j                  d«       Œ^ | j                  |«       | j                  j!                  «        y | j                   j                  dk(  r«t        j#                  d	«       | j$                  j'                  | j(                  €| j                  j                  n| j(                  «      | _        t        j#                  d
«       t+        | j                  «      | _        | j                  j!                  «        y 	 t-        j.                  d«       dd l}t        j:                  |j<                  «      t        j:                  d«      k\  sJ d«       ‚| j?                  «        y # t0        $ r)}t3        j4                  |› d«       t7        d«      |‚d }~ww xY w)N)rD   rK   r-  r   r   )Nzai.onnxr,  é   zžThe opset of the input model is under 21 and doesn't support int4 data type. Force to update it to opset 21, but the generated model may not be a valid model.rX   z%Processing nvidia_awq quantization...rÉ  Úneural_compressorÚ.zLneural-compressor is not correctly installed. Please check your environment.r   z2.3.2zGRequire neural-compressor >= 2.3.2 to support weight only quantization!) rÙ  r   rË  re  r   r   r.   Úset_opset_importrm   r   Úopset_importr0  r   r5  Úwarningrá  Úclean_initializersr6  rØ  rÎ  rÕ  r   Ú	importlibÚimport_moduleÚ	ExceptionÚloggingrÁ  ÚRuntimeErrorr  ÚparseÚ__version__r  )r   rF  r	  ÚopsetÚer  s         r   ÚprocesszMatMul4BitsQuantizer.processØ  s'  € Ø×Ñ×%Ñ%Ð);Ò;àŸ:™:×+Ñ+Ó-Ð.ˆKð ×Ñ×,Ñ,´×0EÑ0EÒEØ—
‘
×+Ñ+¨O¸QÔ?à×Ñ×,Ñ,´·±Ò?À8Èt×O_ÑO_×OtÑOtÑCtØ#Ÿz™z×6Ñ6Ó8Û)EØ—|‘|Ð'<Ò<ÀÇÁÐQSÓASÜŸ™ðpôð Ÿ
™
×3Ñ3°E·L±LÀ"ÕEð *ð ×"Ñ" ;Ô/ØJ‰J×)Ñ)Õ+Ø×Ñ×'Ñ'¨<Ò7ô K‰KÐ?Ô@Ø×,Ñ,×9Ñ9Ø$(§O¡OÐ$;—
‘
× Ò ÀÇÁóˆDŒJô K‰KÐ<Ô=Ü" 4§:¡:Ó.ˆDŒJØJ‰J×)Ñ)Õ+ðÜ×'Ñ'Ð(;Ô<ó %ä—=‘=Ð!2×!>Ñ!>Ó?Ä7Ç=Á=ØóDò ð YàXóYð ð × Ñ Õ"øô ò Ü—‘   1˜gÔ&Ü"Øbóàðûðús   È#J	 Ê		J;Ê$J6Ê6J;)rË  rÏ  r<   rN   rL   rO   rM   rP   r×  zlist[str] | Noner   r#   r   r$   rÙ  zWeightOnlyQuantConfig | None)rF  r_  )r%   r&   r'   Ú__doc__r   r.   r   rá  rô  r  r  r(   r    r   rÑ  rÑ  .  sž   „ ñð, Ø"Ø%)ØØ-1Ø ×*Ñ*Ø7;Ø9=Ø48ð'Màð'Mð ð'Mð ð	'Mð
 #ð'Mð +ð'Mð 5ð'Mð 7ð'Mð 2ó'MóR.ò`ò-Só^/#r    rÑ  c                ó&   — | j                  «       dv S )N)ÚtrueÚ1)Úlower)ré  s    r   Úort_convert_str_to_boolr  
  s   € Ø;‰;‹=˜MÐ)Ð)r    c                óD   — | j                  d«      \  }}|t        |«      fS )NÚ:)r¡   rN   )ÚsÚkeyré  s      r   Úparse_key_value_pairr     s!   € Ø—‘˜“J€CˆØ”E“
ˆ?Ðr    c            
     óú  — t        j                  d¬«      } | j                  ddd¬«       | j                  ddd¬«       | j                  d	d
dt        d¬«       | j                  ddt        g d¢d¬«       | j                  ddt        d¬«       | j                  dd
dddt
        dd
gd¬«       | j                  dd
t        d¬«       | j                  ddd
d ¬!«       | j                  d
¬"«       | j                  d#d$t        d
g d%¬&«       | j                  d'd$t        d
d(¬)«       | j                  d*d+t        d+d,gd-¬«       | j                  d.t        d$d/d0gd1¬2«       | j                  d3t        d$d
d4¬5«       | j                  d6d7«      }|j                  d8t        d9d:¬;«       |j                  d<t        d
d=¬>«       |j                  d?t        d
d@dAgdB¬C«       |j                  dDt        dEdF¬;«       | j                  «       S )GNa
  Blockwise int4 quantization for MatMul 2D weight matrices.

A weight matrix is partitioned into into blocks, where each block is a
continguous subset inside each column. Each block is quantized into a
set of 4b integers with a scaling factor and an optional offset.
)Údescriptionz--input_modelTzPath to the input model file)ÚrequiredÚhelpz--output_modelzPath to the output model filez--block_sizeFr[   zBlock size for quantization)r#  ÚdefaultrÜ  r$  z--quant_methodr%  )r%  ÚhqqÚrtnÚgptqrX   uW   the algorithm used to quantize weight, 
rtn and gptq leverage IntelÂ® Neural Compressor)r%  rÜ  Úchoicesr$  z--bitsrB   z#the target bits to represent weight)r%  rÜ  r$  z--symmetricÚ?zWIndicate whether to quantize the model symmetrically, symmetric is not supported by hqq)r#  r%  ÚconstÚnargsrÜ  r)  r$  z--accuracy_levelzíAccuracy level of the 4-bit quantized MatMul computation. Refer to the MatMulNBits contrib op's 'accuracy_level' attribute for details (https://github.com/microsoft/onnxruntime/blob/main/docs/ContribOperators.md#commicrosoftmatmulnbits).)r#  rÜ  r$  z-vz	--verboseÚ
store_true)r#  Úaction)rù   z--nodes_to_excludeÚ+zBSpecify the nodes to be excluded from quantization with node names)r,  rÜ  r#  r%  r$  z--nodes_to_includezKSpecify the specific nodes to be included from quantization with node names)r,  rÜ  r#  r$  z--quant_formatr.   rm   z±QuantFormat {QOperator, QDQ}QOperator format quantizes the model with quantized operators directly.QDQ format quantize the model by inserting DeQuantizeLinear before the MatMul.z--op_types_to_quantizer   r   zPop_types_to_quantize {MatMul, Gather}. Operators to quantize. Default is MatMul.)rÜ  r,  r)  r$  z--quant_axeszªKey-value pairs in op_type:axis_to_quantize separated by space.Specify the axis to quantize for an op. Default {MatMul:0, Gather:1}Example: --quant_axes MatMul:0 Gather:1)rÜ  r,  r#  r$  rX   z-Arguments specific to nvidia_awq quantizationz--calib_dataset_namer   z/Name of the calibration dataset for nvidia_awq.)rÜ  r%  r$  z--tokenizer_dirzPath of the tokenizer dir.)rÜ  r#  r$  z--calibration_methodÚawqÚawq_clipz<Support two options, awq implementation and weight clipping.)rÜ  r#  r)  r$  z--cache_dirrÍ   z%Cache directory for calibration data.)
ÚargparseÚArgumentParserÚadd_argumentrN   r"   r  Úset_defaultsr   Úadd_argument_groupÚ
parse_args)ÚparserÚnv_awq_configs     r   r7  r7    s  € Ü×$Ñ$ðô€Fð ×Ñ˜°$Ð=[ÐÔ\Ø
×ÑÐ(°4Ð>]ÐÔ^Ø
×Ñ˜°ÀÌÐSpÐÔqØ
×ÑØØÜÚ?Øgð ô ð ×Ñ˜¨!´#Ð<aÐÔbØ
×ÑØØØØØÜ$ØuØfð ô 	ð ×ÑØØÜðqð	 ô ð ×Ñ˜˜k°EÀ,ÐÔOØ
×Ñ ÐÔ&Ø
×ÑØØÜØØØQð ô ð ×ÑØØÜØØZð ô ð ×ÑØØÜØ˜eÐ$ðYð ô ð ×ÑØ ÜØØ˜8Ð$Ø_ð ô ð ×ÑØÜ!ØØð2ð ô ð ×-Ñ-¨lÐ<kÓl€MØ×ÑØÜØØ>ð	 ô ð ×ÑØÜØØ)ð	 ô ð ×ÑØÜØØ˜
Ð#ØKð ô ð ×ÑØÜØØ4ð	 ô ð ×ÑÓÐr    Ú__main__rð  zfile z already existsr&  zAsymmetric is not supportted by hqq, will force to symmetric=FalseF)r<   rF   r   r   r%  rÓ  r'  )r   r(  )r<   r   rX   zFQOperator is not applicable to nvidia_awq. overriding the value to QDQr0  rÎ   r1  )r\   rq   r^   rp   z!Unsupported quantization method: )rË  rM   rÖ  r×  rÙ  T)rc  r_  r`  ztuple[TensorProto, GraphProto])WÚ
__future__r   r2  r÷  r  r  Úosr¹   rÑ   Únumpy.typingÚtypingÚnptr9  Úonnx.onnx_pbr   r   r   r   Ú	packagingr   Úonnxruntime.capi._pybind_stater	   r
   Ú	calibrater   Ú
onnx_modelr   Úquant_utilsr   r   ÚbasicConfigÚINFOÚ	getLoggerr%   r5  r   r*   r6   rA   rI   rR   rÕ   r×   r8  rg  rÆ  rÑ  r  r   r7  Úargsrù   ÚsetLevelÚDEBUGÚinput_modelÚinput_model_pathÚoutput_modelÚoutput_model_pathr   r   Útupler   ÚpathÚexistsrÁ  r  Ú	symmetricÚquant_methodr
  rÔ  rË  r<   rF   Úquant_configrM   r.   rm   rp   Úcalib_dataset_namerq   r^   r±   rÖ  r×  Úquantr  Úsave_model_to_filer(   r    r   Ú<module>rY     s’  ðõ #ã Û Û Û Û 	ã Ý Û ß GÓ GÝ ç [å ,Ý !ß 8à €× Ñ ÐOÐW^×WcÑWcÕ dØ	ˆ×	Ñ	˜8Ó	$€÷Yñ Yô6Ð4ô ôB0%Ð 5ô 0%ôf(Ð4ô (ôV(-Ð#8ô (-ôVs#Ð!6ô s#òl4÷f ñ f óR÷oñ o÷d	(ñ (÷XY#ñ Y#òx*ò
ò
lð^ ˆzÓÙ‹<€DØ‡|‚|Ø‰˜Ÿ™Ô&à×'Ñ'ÐØ×)Ñ)ÐØ˜t×0Ñ0Ñ1€LØ?C×?XÒ?X™5 ×!:Ñ!:Ô;Ð^iÐØ+/¯?ª?‘t—‘Ô'À€Jà	‡ww‡~~Ð'Ô(Ø‰uÐ.Ð/¨Ð?Ô@Ù˜%Ð 1Ð2°/ÐBÓCÐCà‡~‚~˜$×+Ñ+¨uÒ4Ø‰ÐZÔ[ØˆŒàˆDI‰IÐ&Ó'€EØ×Ñ˜EÒ!Ù/Ø—‘¨T¯Y©YÐMaÐnxô
Šð 
×	Ñ	˜iÒ	'Ù3Ø—‘ØŸ™Ø×.Ñ.Ø%Ø!5Ø!ô
‰ð 
×	Ñ	˜eÒ	#Ù/ÐEYÔZ‰Ø	×	Ñ	˜fÒ	$Ù0¸D¿O¹OÐbvÔw‰Ø	×	Ñ	˜lÒ	*à˜;×0Ñ0Ò0ØN‰NÐcÔdØ&Ÿ?™?ˆLà ˆØ×"Ñ"Ð.Ø×&Ñ&¨%Ò/Ø%/Ñ"à%/Ñ"à!+Ðá1Ø×0Ñ0Ø×,Ñ,Ø—n‘nØ1ô	
‰ñ Ð<¸T×=NÑ=NÐ<OÐPÓQÐQá ØØ×*Ñ*Ø×.Ñ.Ø×.Ñ.Ø ô€Eð 
‡MM„OØ	‡KK×"Ñ"Ð#4°dÕ;ðK r    