Add warmup run and multi instance runs with numactl (#2591)

gaurides · web-flow · commit 1f39a94d95de · 2025-01-10T12:21:37.000-08:00
diff --git a/models/recommendation/tensorflow/wide_deep/inference/wide_deep_inference.py b/models/recommendation/tensorflow/wide_deep/inference/wide_deep_inference.py
@@ -126,8 +126,11 @@ def evaluate_model(self):
                      [self.x_test_categ[:, i] for i in range(self.x_test_categ.shape[1])] +\
                      [self.x_test_categ_poly]
             loaded_model = load_model(os.path.join(self.args.pretrained_model, 'wide_and_deep.h5'))
+            # Warmup run
+            result = loaded_model.predict(input_data,batch_size=self.args.batch_size)
             test_file = os.path.join(self.args.data_location, 'adult.test')
             num_records = sum(1 for line in open(test_file))
+            # Benchmark run
             inference_start = time.time()
             result = loaded_model.predict(input_data,batch_size=self.args.batch_size)
             main_end = time.time()
diff --git a/models_v2/tensorflow/wide_deep/inference/cpu/accuracy.sh b/models_v2/tensorflow/wide_deep/inference/cpu/accuracy.sh
@@ -16,6 +16,7 @@
 #
 
 MODEL_DIR=${MODEL_DIR-$PWD}
+MODE="inference"
 
 # echo 'MODEL_DIR='$MODEL_DIR
 #echo 'OUTPUT_DIR='$OUTPUT_DIR
@@ -62,14 +63,41 @@ if [[ -z "${BATCH_SIZE}" ]]; then
   echo "Running with default batch size of ${BATCH_SIZE}"
 fi
 
+# If cores per instance env is not mentioned, then the workload will run with the default value.
+if [ -z "${CORES_PER_INSTANCE}" ]; then
+  # Get number of cores per instance
+  CORES_PER_SOCKET=`lscpu | grep 'Core(s) per socket' | awk '{print $4}'`
+  SOCKETS=`lscpu | grep Socket | awk '{print $2}'`
+  NUMAS=`lscpu | grep 'NUMA node(s)' | awk '{print $3}'`
+  CORES_PER_INSTANCE=`expr $CORES_PER_SOCKET \* $SOCKETS / $NUMAS`
+
+  echo "CORES_PER_SOCKET: $CORES_PER_SOCKET"
+  echo "SOCKETS: $SOCKETS"
+  echo "NUMAS: $NUMAS"
+  echo "CORES_PER_INSTANCE: $CORES_PER_INSTANCE"
+fi
+
 source "$MODEL_DIR/models_v2/common/utils.sh"
 _command python ${MODEL_DIR}/benchmarks/launch_benchmark.py \
       --framework tensorflow \
       --precision ${PRECISION} \
-      --mode inference \
+      --mode ${MODE} \
       --model-name wide_deep \
       --batch-size ${BATCH_SIZE} \
       --data-location ${DATASET_DIR} \
       --output-dir ${OUTPUT_DIR} \
       --accuracy-only \
+      --num-intra-threads=${CORES_PER_INSTANCE} \
+      --num-inter-threads=1 \
+      --numa-cores-per-instance=${CORES_PER_INSTANCE} \
       $@
+
+if [[ $? == 0 ]]; then
+  cat ${OUTPUT_DIR}/wide_deep_${PRECISION}_${MODE}_bs${BATCH_SIZE}_cores*_all_instances.log | grep 'Test Accuracy: ' | sed -e s"/.*: //"
+  echo "Test Accuracy:"
+  grep 'Test Accuracy: ' ${OUTPUT_DIR}/wide_deep_${PRECISION}_${MODE}_bs${BATCH_SIZE}_cores*_all_instances.log | awk -F' ' '{sum+=$3; count+=1; print $3;} END{print sum/count} '
+  exit 0
+else
+  exit 1
+fi
+
diff --git a/models_v2/tensorflow/wide_deep/inference/cpu/inference_batch.sh b/models_v2/tensorflow/wide_deep/inference/cpu/inference_batch.sh
@@ -16,6 +16,7 @@
 #
 
 MODEL_DIR=${MODEL_DIR-$PWD}
+MODE="inference"
 
 # echo 'MODEL_DIR='$MODEL_DIR
 #echo 'OUTPUT_DIR='$OUTPUT_DIR
@@ -61,14 +62,39 @@ if [[ -z "${BATCH_SIZE}" ]]; then
   BATCH_SIZE="1024"
   echo "Running with default batch size of ${BATCH_SIZE}"
 fi
+# If cores per instance env is not mentioned, then the workload will run with the default value.
+if [ -z "${CORES_PER_INSTANCE}" ]; then
+  # Get number of cores per instance
+  CORES_PER_SOCKET=`lscpu | grep 'Core(s) per socket' | awk '{print $4}'`
+  SOCKETS=`lscpu | grep Socket | awk '{print $2}'`
+  NUMAS=`lscpu | grep 'NUMA node(s)' | awk '{print $3}'`
+  CORES_PER_INSTANCE=`expr $CORES_PER_SOCKET \* $SOCKETS / $NUMAS`
+
+  echo "CORES_PER_SOCKET: $CORES_PER_SOCKET"
+  echo "SOCKETS: $SOCKETS"
+  echo "NUMAS: $NUMAS"
+  echo "CORES_PER_INSTANCE: $CORES_PER_INSTANCE"
+fi
 
 source "$MODEL_DIR/models_v2/common/utils.sh"
 _command python ${MODEL_DIR}/benchmarks/launch_benchmark.py \
       --framework tensorflow \
       --precision ${PRECISION} \
-      --mode inference \
+      --mode ${MODE} \
       --model-name wide_deep \
       --batch-size ${BATCH_SIZE} \
       --data-location ${DATASET_DIR} \
       --output-dir ${OUTPUT_DIR} \
+      --num-intra-threads=${CORES_PER_INSTANCE} \
+      --num-inter-threads=1 \
+      --numa-cores-per-instance=${CORES_PER_INSTANCE} \
       $@
+
+if [[ $? == 0 ]]; then
+  cat ${OUTPUT_DIR}/wide_deep_${PRECISION}_${MODE}_bs${BATCH_SIZE}_cores*_all_instances.log | grep 'Throughput is: ' | sed -e s"/.*: //"
+  echo "Throughput summary:"
+  grep 'Throughput is: ' ${OUTPUT_DIR}/wide_deep_${PRECISION}_${MODE}_bs${BATCH_SIZE}_cores*_all_instances.log | awk -F' ' '{sum+=$3; print $3;} END{print sum} '
+  exit 0
+else
+  exit 1
+fi
diff --git a/models_v2/tensorflow/wide_deep/inference/cpu/inference_online.sh b/models_v2/tensorflow/wide_deep/inference/cpu/inference_online.sh
@@ -16,6 +16,7 @@
 #
 
 MODEL_DIR=${MODEL_DIR-$PWD}
+MODE="inference"
 
 # echo 'MODEL_DIR='$MODEL_DIR
 #echo 'OUTPUT_DIR='$OUTPUT_DIR
@@ -62,13 +63,32 @@ if [[ -z "${BATCH_SIZE}" ]]; then
   echo "Running with default batch size of ${BATCH_SIZE}"
 fi
 
+# If cores per instance env is not mentioned, then the workload will run with the default value.
+if [ -z "${CORES_PER_INSTANCE}" ]; then
+  CORES_PER_INSTANCE=4
+else
+  CORES_PER_INSTANCE=${CORES_PER_INSTANCE}
+fi
+
 source "$MODEL_DIR/models_v2/common/utils.sh"
 _command python ${MODEL_DIR}/benchmarks/launch_benchmark.py \
       --framework tensorflow \
       --precision ${PRECISION} \
-      --mode inference \
+      --mode ${MODE} \
       --model-name wide_deep \
       --batch-size ${BATCH_SIZE} \
       --data-location ${DATASET_DIR} \
       --output-dir ${OUTPUT_DIR} \
+      --num-intra-threads=${CORES_PER_INSTANCE} \
+      --num-inter-threads=1 \
+      --numa-cores-per-instance=${CORES_PER_INSTANCE} \
       $@
+
+if [[ $? == 0 ]]; then
+  cat ${OUTPUT_DIR}/wide_deep_${PRECISION}_${MODE}_bs${BATCH_SIZE}_cores*_all_instances.log | grep 'Throughput is:' | sed -e s"/.*: //"
+  echo "Throughput summary:"
+  grep 'Throughput is:' ${OUTPUT_DIR}/wide_deep_${PRECISION}_${MODE}_bs${BATCH_SIZE}_cores*_all_instances.log | awk -F' ' '{sum+=$3;} END{print sum} '
+  exit 0
+else
+  exit 1
+fi