マルチモーダルAIって?

目と耳と口を持った、新しいAIのお話。

ちょっと難しい言葉ですが、マルチモーダルとは、
「文字」だけでなく、「画像」「音声」「動画」も理解できるAIのことです。
まるで人間のように、見て、聞いて、話すことができるようになったんです。

仕組みを図解で見てみよう

Multimodal AI Diagram

昔のAIは、それぞれの機能がバラバラでした。
でも今は、ひとつの大きな脳みそで、全部を同時に処理できるんです。

冷蔵庫の中身からレシピ提案

冷蔵庫の中の写真を撮って「これで何が作れる?」と聞くと、 AIが食材を認識して、おいしそうなレシピを教えてくれます。

活用例: 毎日の献立作りに!賞味期限切れも防げます。

英語の先生になってもらう

AIと音声でおしゃべりしながら英会話の練習ができます。 発音も直してくれるし、恥ずかしくないので上達も早いです。

活用例: お子さんの英語学習や、海外旅行の予行演習に。