メインコンテンツへスキップ

オープンソースソフトウェア/データセット

M3Lは,マルチモーダル計算機聴取のためのオープンソースのツールキットです.音声・音響と他モダリティを組み合わせたモデルの構築・学習・評価のための基盤とレシピを提供します.

SBSSは,スケーラブルなブラインド音源分離(BSS)のためのPythonベースの研究向けツールキットです.Neural FCAやNeural FastFCAなどのE2Eモデルの構築環境を提供します.

Aiaccel

Aiaccelは,特にABCIのようなHPCクラスタ上での機械学習研究を加速するためのオープンソースなPythonツールキットです.

LEAD Dataset

LEAD Datasetは,各クリップに異なる20名によるアノテーションを提供する強ラベルの音響イベントのデータセットです.アノテータ間の差異を分析し,アノテーションのゆらぎに頑健なSEDモデルの開発に役立ちます.

SaSLaW Corpus

SaSLaWは,話し手が「話す」「聴く」「見る」を同期記録した音声対話コーパスです.