From 6283cfedfe2f8672138d199a3494b0cc89cdd82a Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=E9=AD=94=E6=B3=95=E6=98=9F=E8=BE=B0?= <141453555+Mofa-Xingche@users.noreply.github.com> Date: Sat, 19 Oct 2024 05:00:28 +0900 Subject: [PATCH] Create Colab-sbv2_bindings-CPU.ipynb MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit すみません 失礼します ひとまず、ColabのCPU sbv2_bindingsのジュピターノートブックの追加 --- Colab-sbv2_bindings-CPU.ipynb | 180 ++++++++++++++++++++++++++++++++++ 1 file changed, 180 insertions(+) create mode 100644 Colab-sbv2_bindings-CPU.ipynb diff --git a/Colab-sbv2_bindings-CPU.ipynb b/Colab-sbv2_bindings-CPU.ipynb new file mode 100644 index 0000000..1fee5fc --- /dev/null +++ b/Colab-sbv2_bindings-CPU.ipynb @@ -0,0 +1,180 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "# 音声合成プログラム\n", + "\n", + "このノートブックでは、`sbv2_bindings` パッケージを使用して音声合成を行います。必要なモデルをダウンロードし、ユーザーが入力したテキストから音声を生成します。音声合成が終わったら、再度テキストの入力を求め、ユーザーが終了するまで繰り返します。" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "# 必要なパッケージのインストール\n", + "!pip install sbv2_bindings\n", + "\n", + "# 必要なモジュールのインポート\n", + "import os\n", + "import urllib.request\n", + "import time\n", + "from sbv2_bindings import TTSModel" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## モデルのダウンロード\n", + "\n", + "モデルファイルとトークナイザーをダウンロードします。ユーザーが独自のモデルを使用したい場合は、該当するURLまたはローカルパスを指定してください。" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "# モデルの URL またはローカルパスの指定\n", + "user_sbv2_model_url = \"\" # カスタムモデルのURLがあればここに指定\n", + "user_sbv2_model_path = \"\" # カスタムモデルのローカルパスがあればここに指定\n", + "\n", + "# モデル用のディレクトリを作成\n", + "model_dir = 'models'\n", + "os.makedirs(model_dir, exist_ok=True)\n", + "\n", + "# ダウンロードするファイルの URL\n", + "file_urls = [\n", + " \"https://huggingface.co/googlefan/sbv2_onnx_models/resolve/main/tokenizer.json\",\n", + " \"https://huggingface.co/googlefan/sbv2_onnx_models/resolve/main/deberta.onnx\",\n", + "]\n", + "\n", + "# モデルのパス決定\n", + "if user_sbv2_model_path:\n", + " sbv2_model_path = user_sbv2_model_path # ローカルモデルのパスを使用\n", + "elif user_sbv2_model_url:\n", + " sbv2_model_filename = os.path.basename(user_sbv2_model_url)\n", + " sbv2_model_path = os.path.join(model_dir, sbv2_model_filename)\n", + " file_urls.append(user_sbv2_model_url)\n", + "else:\n", + " # デフォルトのモデルを使用\n", + " sbv2_model_filename = \"tsukuyomi.sbv2\"\n", + " sbv2_model_path = os.path.join(model_dir, sbv2_model_filename)\n", + " file_urls.append(\"https://huggingface.co/googlefan/sbv2_onnx_models/resolve/main/tsukuyomi.sbv2\")\n", + "\n", + "# ファイルをダウンロード\n", + "for url in file_urls:\n", + " file_name = os.path.join(model_dir, os.path.basename(url))\n", + " if not os.path.exists(file_name):\n", + " print(f\"{file_name} をダウンロードしています...\")\n", + " urllib.request.urlretrieve(url, file_name)\n", + " else:\n", + " print(f\"{file_name} は既に存在します。\")\n", + "\n", + "# ダウンロードまたは使用するファイルを確認\n", + "print(\"\\n使用するファイル:\")\n", + "for file in os.listdir(model_dir):\n", + " print(file)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## モデルの読み込みと音声合成\n", + "\n", + "モデルを読み込み、ユーザーが入力したテキストから音声を生成します。話者名は使用する `.sbv2` ファイル名から自動的に取得します。音声合成が終わったら、再度テキストの入力を求め、ユーザーが終了するまで繰り返します。" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [ + "# 音声合成の実行\n", + "def main():\n", + " try:\n", + " print(\"\\nモデルを読み込んでいます...\")\n", + " model = TTSModel.from_path(\n", + " os.path.join(model_dir, \"deberta.onnx\"),\n", + " os.path.join(model_dir, \"tokenizer.json\")\n", + " )\n", + " print(\"モデルの読み込みが完了しました!\")\n", + " except Exception as e:\n", + " print(f\"モデルの読み込みに失敗しました: {e}\")\n", + " return\n", + "\n", + " # 話者名を取得(.sbv2 ファイル名の拡張子を除いた部分)\n", + " speaker_name = os.path.splitext(os.path.basename(sbv2_model_path))[0]\n", + " \n", + " # 指定されたモデルのパスを使用\n", + " try:\n", + " model.load_sbv2file_from_path(speaker_name, sbv2_model_path)\n", + " print(f\"話者 '{speaker_name}' のセットアップが完了しました!\")\n", + " except Exception as e:\n", + " print(f\"SBV2ファイルの読み込みに失敗しました: {e}\")\n", + " return\n", + "\n", + " # 音声合成を繰り返し実行\n", + " while True:\n", + " # 合成したいテキストをユーザーから入力\n", + " user_input = input(\"\\n音声合成したいテキストを入力してください(終了するには 'exit' と入力): \")\n", + " \n", + " if user_input.strip().lower() == 'exit':\n", + " print(\"音声合成を終了します。\")\n", + " break\n", + "\n", + " # 出力ファイル名\n", + " output_file = \"output.wav\"\n", + "\n", + " # 音声合成を実行\n", + " try:\n", + " print(\"\\n音声合成を開始します...\")\n", + " start_time = time.time()\n", + "\n", + " audio_data = model.synthesize(user_input, speaker_name, 0, 0.0, 1)\n", + "\n", + " with open(output_file, \"wb\") as f:\n", + " f.write(audio_data)\n", + "\n", + " end_time = time.time()\n", + " elapsed_time = end_time - start_time\n", + "\n", + " print(f\"\\n音声が '{output_file}' に保存されました。\")\n", + " print(f\"音声合成にかかった時間: {elapsed_time:.2f} 秒\")\n", + " except Exception as e:\n", + " print(f\"音声合成に失敗しました: {e}\")\n", + "\n", + "if __name__ == \"__main__\":\n", + " main()" + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "Python 3", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.x" + } + }, + "nbformat": 4, + "nbformat_minor": 4 +}