M3Lは,マルチモーダル計算機聴取のためのオープンソースのツールキットです.音声・音響と他モダリティを組み合わせたモデルの構築・学習・評価のための基盤とレシピを提供します.
オープンソースソフトウェア/データセット
SBSSは,スケーラブルなブラインド音源分離(BSS)のためのPythonベースの研究向けツールキットです.Neural FCAやNeural FastFCAなどのE2Eモデルの構築環境を提供します.
LEAD Dataset
↗
↖
LEAD Datasetは,各クリップに異なる20名によるアノテーションを提供する強ラベルの音響イベントのデータセットです.アノテータ間の差異を分析し,アノテーションのゆらぎに頑健なSEDモデルの開発に役立ちます.