GoogleのGemini(2.5 Frash)で画像処理を施してみました。8月に入ってからはマーケティングのリサーチから細かい詳細など、今まで自分の時間を使ってこなしていたタスクを任せているおかげで動画作成の時間をだいぶ作れるようになりました。
Gemini(2.5 Frash)ができること
- 文章・アイデアの生成と要約
- 文章やリストの作成、アイデア出し
- Web記事やPDF資料の要約、重要な点の抽出
- Gmailの下書き作成や、Google Sheetsでの関数提案
- 画像・動画の生成と活用
- テキストや指示に基づいて画像やイラスト、CG調の画像を生成
- 動画の内容を要約する
- マルチモーダルな機能
- テキスト、画像、音声、カメラなど、複数の情報を同時に処理し、より高度な理解と応答を可能にする
- カメラで見たものを説明したり、画像の内容を分析したりできる
- 音声入力によるリアルタイム翻訳や、会話しながらのサポート
- Googleサービスとの連携
- GmailやGoogleドライブの情報をまとめて検索する
- Googleマップで旅行の計画を立てる
- YouTube動画を検索し、その内容を要約する
Gemini(2.5 Frash)の何がすごい?
Geminiの特徴の一つとしてマルチモーダルであることが挙げられます。テキストの生成だけでなく、画像や音声などさまざまなデータを学習し、テキストデータを得意とする他のAIサービスに比べ、より多くのタスクに対応可能。情報源がGoogle検索であり、リアルタイムに出てくる情報から回答を生成できる点も優れています。
既存の画像から画像処理を施してみた結果

色々なSNSでプロフ画像している道東の画像ですが、この画像にはパートナーが写っています。序の口ではありますがGemini(2.5 Frash)で消してもらいました。こんな簡単な申し出でなんか逆に申し訳なく感じてしまう。

出来た画像がこれ!
上出来であります。背景も変更できたりするんだけど、変更する必要もないのでそのまま。
まとめ
今回簡単に説明しましたが、現時点でAIが多数活用されています。AIで作成された画像には右下に『ウォーターマーク』が施されていて電子透かしになっています。
コメント