JavaScript Text to Speech Library

1 時間

GPUなしで動作する軽量なAI OCRツール「NDLOCR-Lite」、国会図書館の ...

AIを用いて写真からテキストデータを抽出できる軽量ツール「NDLOCR-Lite」が2月24日、国会図書館の実験的なサービスを提供する「NDLラボ」の公式「GitHub」サイトで公開された。ライセンスは「CC BY 4.0」で、ソースコードも公開済み。適切なクレジット表示さえあれば商用を含め自由に利用できる。

4 日

Qlean Dataset、「日本語・1話者・講談の音声コーパスと ...

～GENIAC採択企業のVisual Bank、伝統話芸領域の音声・テキストデータで音声・言語系AI研究を支援～ Visual Bank株式会社（東京都港区、代表取締役CEO 永井真之）は、傘下の株式会社アマナイメージズを通じて展開するAI学習用データソリューション「Qlean Datase ...

ギズモード・ジャパン

Google翻訳をリアルタイムで上手に使う方法

2024年1月12日の記事を編集して再掲載しています。Google翻訳アプリ、ダウンロードしてあるけど、最近使ってないなあ…そんな人がいたらそれはもったいない！ Google翻訳、思っていた以上に進化していて、実用度が素晴らしいことになっています。話している2人の間にスマートフォンがあれば、リアルタイムでGoogle翻訳が通訳してくれます。音声認識の精度と翻訳スピー ...

ライフハッカー・ジャパン on MSN

設定はわずか3ステップ。プライバシー特化型AI「Duck.ai」で音声チャットを試してみた

OpenAIが無料ユーザー向けに広告表示を検討し始める一方で、検索エンジンのDuckDuckGoが運営する「Duck.ai」は、全く異なる道を突き進んでいます。

AV Watch

Geminiに音楽生成機能。言葉や写真・動画から楽曲生成

Googleは2月19日、Google DeepMind の音楽生成モデル「Lyria 3」をGeminiアプリに搭載し、音楽生成機能のベータ版を日本でも順次展開すると発表した。アイデアを説明したり、写真をアップロードするだけで、「Geminiが数秒でハイクオリティーでキャッチーな楽曲を生成する」という。

一部の結果でアクセス不可の可能性があるため、非表示になっています。

アクセス不可の結果を表示する