游雁
2024-02-19 1448e021accfdb03a381651cb5a8be6d1a6e8adf
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
#!/usr/bin/env bash
 
 
# Begin configuration section.
nj=32
cmd=utils/run.pl
 
echo "$0 $@"
 
. utils/parse_options.sh || exit 1;
 
# tokenize configuration
text_dir=$1
seg_file=$2
logdir=$3
output_dir=$4
 
txt_dir=${output_dir}/txt; mkdir -p ${output_dir}/txt
mkdir -p ${logdir}
 
$cmd JOB=1:$nj $logdir/text_tokenize.JOB.log \
  python utils/text_tokenize.py -t ${text_dir}/txt/text.JOB.txt \
      -s ${seg_file} -i JOB -o ${txt_dir} \
      || exit 1;
 
# concatenate the text files together.
for n in $(seq $nj); do
  cat ${txt_dir}/text.$n.txt || exit 1
done > ${output_dir}/text || exit 1
 
for n in $(seq $nj); do
  cat ${txt_dir}/len.$n || exit 1
done > ${output_dir}/text_shape || exit 1
 
echo "$0: Succeeded text tokenize"