speech_asr
2023-03-10 9e2a04d0e0823c0fe2f3dc9fafa68d2045b773d4
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
 
 
import csv
import os
from typing import Union
import inflect
 
UNIT_1e01 = '十'
UNIT_1e02 = '百'
UNIT_1e03 = '千'
UNIT_1e04 = '万'
 
_inflect = inflect.engine()
 
 
def num_to_word(x: Union[str, int]):
    """
    converts integer to spoken representation
    Args
        x: integer
    Returns: spoken representation 
    """
    if isinstance(x, int):
        x = str(x)
        x = _inflect.number_to_words(str(x)).replace("-", " ").replace(",", "")
    return x
 
def get_abs_path(rel_path):
    """
    Get absolute path
 
    Args:
        rel_path: relative path to this file
        
    Returns absolute path
    """
    return os.path.dirname(os.path.abspath(__file__)) + '/' + rel_path
 
 
def load_labels(abs_path):
    """
    loads relative path file as dictionary
 
    Args:
        abs_path: absolute path
 
    Returns dictionary of mappings
    """
    label_tsv = open(abs_path, encoding="utf-8")
    labels = list(csv.reader(label_tsv, delimiter="\t"))
    return labels
 
 
def augment_labels_with_punct_at_end(labels):
    """
    augments labels: if key ends on a punctuation that value does not have, add a new label 
    where the value maintains the punctuation
 
    Args:
        labels : input labels
    Returns:
        additional labels
    """
    res = []
    for label in labels:
        if len(label) > 1:
            if label[0][-1] == "." and label[1][-1] != ".":
                res.append([label[0], label[1] + "."] + label[2:])
    return res