TakwayBoard/ws_client.py

from takway.clients.web_socket_client_utils import WebSocketClinet
import pvporcupine
import pyaudio
import platform


if __name__ == '__main__':

    server_url = 'ws://43.132.157.186:8002/api/chat/streaming/temporary'


    # session_id = 'ef3fd24a-86d9-47c5-94a9-574628ea5a43' # toy1
    # session_id = '984651b2-828e-41b7-8a5a-b3ade108dfae' # toy2
    # session_id = 'd1427250-adb2-40d6-b41a-0ffcb029a8f8' # toy3
    # session_id = '08312487-8751-417e-a89b-2d55558c485c' # toy4
    # session_id = '4c75a357-d728-47db-93d3-f1587b180e86' # toy5
    # session_id = '33053669-2f6b-442a-8658-b342552b3484' # toy6


    excute_args = {}

    system = platform.system()
    if system == 'Windows':
        print("WebSocketClinet runs on Windows system.")
        board = None
    elif system == 'Linux':
        board = 'orangepi'
        # ACCESS_KEY = 'hqNqw85hkJRXVjEevwpkreB8n8so3w9JPQ27qnCR5qTH8a3+XnkZTA==' # gaohz

    mircophone_device = None
    speaker_device = None

    keywords = ['芭比']
    keyword_paths = None
    model_path = None
    #
    keyword_paths = ["models/芭比_zh_raspberry-pi_v3_0_0/芭比_zh_raspberry-pi_v3_0_0.ppn"]
    model_path = "models/porcupine_params_zh.pv"

    hd_trigger = 'button'

    mircophone_device = 2
    speaker_device = 2


    import argparse
    parser = argparse.ArgumentParser()
    # server params


    # recorder paramters
    parser.add_argument('--voice_trigger', type=bool, default=True, help='Voice trigger')
    parser.add_argument('--access_key',default=ACCESS_KEY,
        help='AccessKey obtained from Picovoice Console (https://console.picovoice.ai/)')
    parser.add_argument('--keywords',nargs='+',choices=sorted(pvporcupine.KEYWORDS),type=list,
        default=keywords,
        help='List of default keywords for detection. Available keywords: %s' % ', '.join(
        '%s' % w for w in sorted(pvporcupine.KEYWORDS)),metavar='')
    parser.add_argument('--keyword_paths',nargs='+',
        default=keyword_paths,
        help="Absolute paths to keyword model files. If not set it will be populated from `--keywords` argument")
    parser.add_argument('--library_path',default=None,
        help='Absolute path to dynamic library. Default: using the library provided by `pvporcupine`')
    parser.add_argument('--model_path',
        default=model_path,
        help='Absolute path to the file containing model parameters. '
             'Default: using the library provided by `pvporcupine`')
    parser.add_argument('--sensitivities',type=float,
        default=0.9,
        help="Sensitivities for detecting keywords. Each value should be a number within [0, 1]. A higher "
             "sensitivity results in fewer misses at the cost of increasing the false alarm rate. If not set 0.5 "
             "will be used.")
    parser.add_argument('--hd_trigger', type=str,
                        # default='keyboard',
                        default=hd_trigger,
                        help='Hardware trigger')
    parser.add_argument('--keyboard_key', type=str, default='space', help='Keyboard key')

    # recorder paramters
    parser.add_argument('--IN_CHUNK', type=int, default=3840, help='Record chunk size')    # 原来的
    parser.add_argument('--IN_RATE', type=int, default=16000, help='Audio rate')
    parser.add_argument('--IN_FORMAT', type=int, default=16, help='Audio format')
    parser.add_argument('--IN_CHANNELS', type=int, default=1, help='Audio channels')
    parser.add_argument('--IN_filename', type=str, default=None, help='Audio file name')
    parser.add_argument('--IN_frames_per_buffer', type=int, default=512, help='Frames per buffer')
    parser.add_argument('--min_stream_record_time', type=float, default=0.3, help='Min stream record time, sec')
    parser.add_argument('--max_slience_time', type=int, default=10, help='Max slient time when recording, sec')
    parser.add_argument('--min_act_time', type=float, default=0.3, help='Min inactive time, sec')   # 等待多少秒沉默就发送音频
    parser.add_argument('--mircophone_device', type=int, default=mircophone_device, help='Microphone device index')

    # player paramters
    parser.add_argument('--speaker_device', type=int, default=speaker_device, help='Speaker device index')
    parser.add_argument('--OUT_CHUNK', type=int, default=512, help='Player chunk size')
    parser.add_argument('--OUT_RATE', type=int, default=22050, help='Player audio rate')
    parser.add_argument('--OUT_FORMAT', type=int, default=16, help='Player audio format')
    parser.add_argument('--OUT_CHANNELS', type=int, default=1, help='Player audio channels')
    parser.add_argument('--OUT_filename', type=str, default=None, help='Player audio file name')
    parser.add_argument('--OUT_frames_per_buffer', type=int, default=11025, help='Player frames per buffer')

    # log paramters
    parser.add_argument('--log_file', type=str, default='ws_client.log', help='Log file')
    parser.add_argument('--log_level', type=str, default='INFO', help='Log level')

    parser.add_argument('--debug', type=bool, default=False, help='Debug mode')
    args = parser.parse_args()

    # sort out args and params
    server_args = {
       'server_url': server_url,
       'session_id': session_id,
    }

    recorder_args = {
        'board': board,
        'access_key': args.access_key,
        'keywords': args.keywords,
        'keyword_paths': args.keyword_paths,
        'library_path': args.library_path,
        'model_path': args.model_path,
        'sensitivities': args.sensitivities,
        'hd_trigger': args.hd_trigger,
        'keyboard_key': args.keyboard_key,
        'voice_trigger': args.voice_trigger,
        'CHUNK': args.IN_CHUNK,
        'FORMAT': pyaudio.paInt16 if args.IN_FORMAT == 16 else pyaudio.paInt32,
        'CHANNELS': args.IN_CHANNELS,
        'RATE': args.IN_RATE,
        'min_act_time': args.min_act_time,
        'max_slience_time': args.max_slience_time,
        'min_stream_record_time': args.min_stream_record_time,
        'input_device_index': args.mircophone_device,
        'frames_per_buffer': args.IN_frames_per_buffer,
    }

    player_args = {
        'output_device_index': args.speaker_device,
        'CHUNK': args.OUT_CHUNK,
        'FORMAT': pyaudio.paInt16 if args.OUT_FORMAT == 16 else pyaudio.paInt32,
        'CHANNELS': args.OUT_CHANNELS,
        'RATE': args.OUT_RATE,
        'filename': args.OUT_filename,
        'frames_per_buffer': args.OUT_frames_per_buffer,
    }

    log_args = {
        'log_file': args.log_file,
        'log_level': args.log_level,
    }


    localclient = WebSocketClinet(
        board=board,
        server_args=server_args,
        recorder_args=recorder_args,
        player_args=player_args,
        excute_args=excute_args,
        log_args=log_args)
    localclient.process_init()