SASPEECH: Hebrew Text-to-Speech

A Hebrew single speaker dataset and text-to-speech system trained on Shaul Amsterdamsky's voice

This project is maintained by maxmelichov and tonyhasson

SASPEECH: A Hebrew Single Speaker Dataset for Text-to-Speech and Voice Conversion

We present SASPEECH, a Hebrew text-to-speech system trained on recordings of Shaul Amsterdamsky, designed to achieve the highest mean opinion score (MOS) and natural sounding speech synthesis

Dataset examples

Input: Transcription with diacritics Original Robo-Shaul V1 Robo-Shaul V2 OpenAI
1 זוֹ הָיְיתָה אֲוִוירָה מְטוֹרֶפֶת שֶׁל סוֹף הָעוֹלָם.
2 בְּשָׁנָה וָחֵצִי הָאַחֲרוֹנוֹת יָצָא לִי לֶאֱכוֹל כָּאן בְּאַרְהָ״ב אֶת הַמּוּצָרִים שֶׁל שְׁתֵּי הַחֲבָרוֹת
3 הַיי, אֲנִי שָׁאוּל אַמֶסְטֶרְדְמְסְקִי וְאַתֶּם מַאֲזִינִים לִחְיוֹת כִּיס.
4 הוּא רוֹצֶה שֶׁאֲנִי אֶתֵּן דּוּגְמָא
5 וְהוּא אוֹמֵר בְּעֶצֶם דָּבָר אֶחָד וְאֶחָד בִּלְבַד מָה הַיְּכוֹלֶת אוֹ מָה הַסִּיכּוּן שֶׁמֶּמְשָׁלָה כָּלְשֶׁהִי תַּחֲזִיר אֶת הַהַשְׁקָעָה אוֹ יוֹתֵר נָכוֹן
6 הַיי, אַתֶּם עַל חַיוֹת כִּיס, אֲנִי שָׁאוּל אַמֶסְטֶרְדְמְסְקִי, וְהָאִישׁ שֶׁאַתֶּם שׁוֹמְעִים מְדַבֵּר בָּרֶקַע הוּא שִׁיקִי פִישֵּר, וַאֲנִי לֹא יָכוֹל לְגַלּוֹת לָכֶם אֵיפֹה בְּדִיּוּק אֲנַחְנוּ נִמְצָאִים.
7 נוּי סִיפְּרָה לָנוּ שֶׁהַבְּנִיָּיה עַצְמָהּ הִתְקַדְּמָה מַהֵר, וְשֶׁהַבִּנְיָנִים יִהְיוּ מוּכָנִים בְּקָרוֹב לְאִיכְלוּס, בִּסְבִיבוֹת אַפְּרִיל. סוּג שֶׁל.
8 וְאַחֲרֵי זֶה אֲנַחְנוּ צְרִיכִים לְפָחוֹת עוֹד חוֹדְשַׁיִים-שְׁלוֹשָׁה, עַד שֶׁכָּל הַסִּיפּוּר הַזֶּה עוֹבֵר בַּמֶּמְשָׁלָה וּבַכְּנֶסֶת.
9 אָז הַיּוֹם בְּחַיוֹת כִּיס, פֶּרֶק בָּזָק.
10 גּוּפִים שֶׁיְּכוֹלִים לְהִתְחַבֵּר וּלְהַצִּיעַ לָכֶם שֵׁירוּתִים פִּינַנְסִיִּים מִתְקַדְּמִים יוֹתֵר עַל בְּסִיס הַנְּתוּנִים שֶׁלָּכֶם וְהַמֵּידָע שֶׁהַיּוֹם סָגוּר רַק בִּידֵי הַבַּנְק שֶׁלָּכֶם
11 מָה שֶׁבְּהַגְדָּרָה מַשְׁאִיר אֶת הַכַּלְכָּלָה הַהוּנְגָּרִית מֵאָחוֹר, אֲפִילּוּ בְּיַחַס לִמְדִינוֹת כְּמוֹ פּוֹלִין
12 הַמַּטָּרָה שֶׁל הַמִּבְצָע הָיְיתָה לִכְבּוֹשׁ אַרְבַּע עָרִים עַרְבִיּוֹת, לוֹד, רַמְלָה, לִטְרוֹן וְרָמַאלְלָה
13 וְאִם אַתֶּם שׁוֹאֲלִים אֶת עַצְמְכֶם מָה זֶה אוֹמֵר גִ'ינְדֶס, אָז גַּם אֲנִי שָׁאַלְתִּי.
14 אָז בֶּאֱמֶת כַּמָּה הַמָּזוֹן שֶׁאֲנַחְנוּ אוֹכְלִים תּוֹרֵם לְמַשְׁבֵּר הָאַקְלִים?
15 עַד כַּמָּה זֶה בִּכְלָל אֶפְשָׁרִי לִיצוֹר רוֹבּוֹ שָׁאוּל כָּזֶה?
16 גַּם עַל זֶה לֹא חָשַׁבְתִּי בִּכְלָל. אָז עָשִׂיתִי אֶת מָה שֶׁאֲנִי בְּדֶרֶךְ כְּלָל עוֹשֶׂה כְּשֶׁמַּתְקִילִים אוֹתִי בַּשְּׁאֵלָה שֶׁלֹּא חָשַׁבְתִּי עָלֶיהָ.
17 וַאֲנַחְנוּ נִבְדּוֹק הַאִם אַתֶּם וְאֶתֶּן שַׂמְתֶּם לֵב. כָּכָה אֲנִי מְדַמְיֵין אֶת הֶעָתִיד שֶׁלִּי מַגְנִיב וְגַם מַקְרִיפּ

One-shot Speaker to New Speaker

This demo showcases our model's ability to convert a one-shot sample to a new speaker voice while maintaining the content and prosody.

One-shot speaker conversion sample