テキストベース生成AI「Gemini」での画像生成のやり方・手順

空飛ぶ犬

Googlが提供するテキストベースの生成AI「Gemini」で画像を生成してみました。
Geminiはテキストベースと言われていますが、画像生成を指示するプロンプトで簡単に目的の画像を作成してくれとても便利です。

スポンサーリンク

Geminiで画像生成のやり方

パソコンでの手順・やり方です。
ブラウザは何でも大丈夫だと思いますが、ここではChromeの最新版を使用しています。
パソコンで画像を生成するわけでなく、Geminiの側で処理するので、あまりに古いパソコンでなければどんなものでも大丈夫だと思います。
Webアプリなので使用するOSもWindows、Linux、Macを問いません。ここではMacOS Ventura13.7.5となっています。

実際の画像生成手順

とても簡単です。

  1. パソコンで gemini.google.com にアクセスします。
  2. 画像を生成するためのプロンプトを入力します。

これだけです。

プロンプトの参考例

やはりテキストの場合と同じく、なるべく具体的な内容のプロンプトを使用することで満足のいく画像が生成される確率が高くなります。

プロンプトはあまり難しく考える必要はありません。ツボは「具体的に」です。
一度で期待通りの結果が得られなかった場合は、プロンプトを手直しして再度調整してみてください。
だんだんと期待に添った結果が得られるようになると思います。

実際のプロンプト例

  • 自然に囲まれた古びた山道を走る未来の自動車の画像を生成して
  • サーフボードに乗っている犬の画像を作成して
  • スプラッシュを多用した水彩画風で、1 本の川が流れるジャングルの画像を作成して

上記はGooglのヘルプに記載してあるプロンプトの例ですが、かなり具体的であることがわかるでしょう。

ひとつ画像生成してもらいましょう。
一番最初の「自然に囲まれた古びた山道を走る未来の自動車の画像を生成して」を
Geminiに指示すると…

自然に囲まれた古びた山道を走る未来の自動車

ちょっと全体的に暗いけど指示どおり?のイメージ画像が得られることがわかるでしょう。
ちなみに解像度と画像サイズは以下の通りで、大体このくらいで出力されることが多いです。

Web上で使用するには充分な解像度・サイズですね。

解像度

画像生成のスピードは?

GeminiとChatGTPで比べてみると、生成速度的にはGeminiの圧勝かな。
Geminiが早いと言うよりも、ChatGTPが遅すぎるといった方が良いかも。
時間帯によっても変わるのかもしれませんが、ChatGTPは「他のユーザーが沢山画像生成しているのでしばらくかかるよ」とメッセージが出たままフリーズしたのかと思うくらいのろいです。パソコンをシャットダウンしてそのまま就寝、翌日に確認すると出来上がっている…こんな感じが多いですね。
Geminiは上の「自然に囲まれた古びた山道を走る未来の自動車の画像」を生成するのに10分かかるかどうかと言ったところで、生成時間にあまり大きな変動はなさそうです。

画像生成を最短時間でたくさんしたい場合は画像生成専用のAIを使った方がいいかも。

画像生成に特化した生成AI

参考までに画像生成に特化した生成AIを列挙しておきます。
探せば他にもあるかもしれません(2025年6月現在の状況です)

  1. Midjourney (ミッドジャーニー)

    • 非常に高品質で芸術的な画像を生成することで知られています。
    • Discordのインターフェースを通じて利用し、プロンプト(テキスト指示)から画像を生成します。
    • 写実的な画像から、イラスト、ファンタジーアートなど、幅広いスタイルに対応しています。
    • 有料サービスですが、そのクオリティから非常に人気が高いです。
  2. Stable Diffusion (ステーブルディフュージョン)

    • オープンソースで公開されており、ローカル環境での実行が可能です。
    • 高いカスタマイズ性があり、様々なモデル(Checkpoint)や拡張機能(LoRA、ControlNetなど)を組み合わせることで、非常に多様な画像を生成できます。
    • 特定の人物やスタイルを学習させることも可能です。
    • ウェブサービスとしても提供されているもの(DreamStudioなど)もあります。
  3. DALL-E (ダリ)

    • OpenAIが開発した画像生成AIです。
    • テキストプロンプトから画像を生成する能力が高く、特に創造的でユニークな画像を生成することに優れています。
    • OpenAIのAPIを通じて利用できるほか、ChatGPT Plusの機能としても統合されています。
  4. Adobe Firefly (アドビ ファイアフライ)

    • Adobeが開発している画像生成AIで、主にクリエイティブ業界での利用を想定しています。
    • 著作権に配慮した学習データ(Adobe Stockなど)を使用している点が特徴です。
    • PhotoshopやIllustratorなどのAdobe製品と連携し、既存のワークフローに組み込みやすい設計になっています。
    • テキストからの画像生成だけでなく、テキストからのブラシ生成や、画像の拡張なども可能です。
  5. Leonardo.Ai (レオナルド.エーアイ)

    • Stable Diffusionをベースにしつつ、使いやすいインターフェースと豊富な機能(モデル選択、アップスケーラー、画像to画像など)を提供しているプラットフォームです。
    • ゲームアセットやアートワークの生成に特に強みを持っています。

これらのサービスはそれぞれ特徴があり、用途や求めるクオリティ、予算によって最適なものが異なります。無料で試せるものも多いので、ぜひいくつか試してみてはいかがでしょうか。

スポンサーリンク

アスペクト比を変える方法

初期のデフォルトでは画像のアスペクト比は1:1(要するに正方形)なのですが、指定してあげるとアスペクト比を変えることができます。

手順

手順と言っても指定するだけです。

Geminiの画像生成でアスペクト比を変更するには、image_generation.generate_imagesアプリのaspect_ratioパラメータを使用します。指定できるアスペクト比は以下のとおりです。

  • ASPECT_RATIO_1_1
  • ASPECT_RATIO_16_9
  • ASPECT_RATIO_9_16
  • ASPECT_RATIO_3_4
  • ASPECT_RATIO_4_3

例えば、アスペクト比16:9の画像を生成したい場合は、aspect_ratioASPECT_RATIO_16_9に設定します。
実際にやってみましょう。まずは指示無しのデフォルトでの画像です。

プロンプトは以下のようにしました。

プロンプト

生成された画像です。指定無しですとアスペクト比1:1になります。
面白いイメージ画像を作ってくれますね。

空飛ぶ犬

アスペクト比の変更方法

では、アスペクト比を変えてみましょう。
対応するアスペクト比は“1:1” 、 “3:4” 、 “4:3” 、 “9:16” 、 “16:9” とのことです。
プロンプトは以下のようにしました。

※プロンプトで「アスペクト比を16:9でお願いします」でも同じ結果がでました。

生成されたイメージ画像です。アスペクト比が16:9に変わっていますね。(プロンプトは同じでも生成される画像は毎回違います。同じ画像は2度と…出ないですね)

ただアスペクト比を変えると画像のサイズも変わるようで、調べてみると次のようになっていました。

画像サイズ

おそらく、使える画像のデータ容量が決まっていて、その範囲で最大のサイズになるように出力しているのではと…推測ですが。

ちょっとプロンプトを変えてみましょう。
東京タワーをスカイツリーに変えてみると…

空飛ぶ犬

ほら、スカイツリーに変わっていますね。
こうして具体的な希望を伝えてあげると「希望に添った」イメージ画像を生成してもらえます。
通常では考えられない…例えば「スカイツリーの隣に通天閣を入れてください」などと指示した場合でもその通りのイメージ画像を作成してくれるでしょう。

ということで、試しに画像生成してみました。見事にスーパードッグの背景に通天閣がありますね。笑

空飛ぶ犬

東京上空を飛び回るスーパードッグ。あり得ない通天閣が…!

こういったイメージ画像は画像提供サイトを探してもまずないでしょうし、フリー画像ではなおさらです。
無料のGeminiで好きな画像を生成できるのですから利用しない手はありませんね。

スポンサーリンク

解像度を直接指定することはできない

アスペクト比の指定ができるのだから解像度(例えば1920×1200dpi)も直接指定できるのかと思ったら「拒否」られました。笑

Gieminに聞いてみたところ、以下のような回答がきました。

Q生成画像の解像度を直接指定する方法はありますか?指定上の制限は?

A生成画像の解像度指定について

Geminiの画像生成機能では、現在のところ解像度を直接数値で指定するパラメータは提供されていません。

解像度は、指定するアスペクト比aspect_ratio)とプロンプトの内容に基づいて、モデルが最適なサイズを自動的に生成します。例えば、ASPECT_RATIO_16_9を指定した場合、それに応じた横長の画像が生成されますが、具体的なピクセル数(例: 1920×1080)を指示することはできません。

指定上の制限について

現状の解像度に関する主な制限は以下の通りです。

    • 直接指定不可: ピクセル数やDPI(dots per inch)などの具体的な数値を直接指定することはできません。
    • アスペクト比のみ: 調整できるのはアスペクト比のみです。

より高解像度の画像が必要な場合は、生成された画像をダウンロードした後、外部の画像編集ツールを使用して解像度を向上させるか、アップスケール(拡大)処理を行う必要があります。

ご希望の解像度での画像生成ができない点はご不便をおかけしますが、現状の機能でできることはアスペクト比の調整のみとなります。

とのことでした。
解像度を設定したければ、

    1. 都合の良さそうなアスペクト比を指定して画像生成した後
    2. ダウンロードで画像ファイルを入手
    3. 画像編集ソフト(フォトショップやGIMP)で解像度修正

という事になるようですね。まぁ、あまり大きな画像を要求されてもシステム側のリソースを食い潰すから不可というのが本当のところなのかもね。

※以上はGeminiの仕様で、他の生成AI(ChatGTPなど)や画像生成専用AIでは当てはまらないと思います。それぞれで確認してみてください。

スポンサーリンク

生成画像をダウンロード

生成した画像は画面に表示されているのですが、そのままでは利用しがたいです。
そこで、生成画像のダウンロードをすることになるのですが、その方法はとっても簡単「クリック」するだけです。

ダウンロード手順

  1. 生成した画像にマウスポインタを乗せる
  2. 右上に白丸に下向き矢印が出ますのでそこをクリック(右上赤丸のところ)
    画像をダウンロード
  3. しばらくすると「どこにダウンロードするか問合せのウインドウが開く。
  4. 好きな場所(例えばデスクトップ)を選んでダウンロードしてください。

これで生成画像そのものを入手できます。後はお好きなように画像素編集ソフトなどで加工してお使い下さい。

生成画像を商用利用できる?

結論から言うと「今のところは控えた方が良い」と言ったところです。

Geminiを活用すれば無料で画像生成できるため、多くのユーザーに利用されることが予想されますが、2025年4月現在では公式から商用利用について明確な方針が公表されていません。

そのため、現時点では主なトラブルに巻き込まれないためにもGeminiで生成した画像は商用利用しない方が良いでしょう。
引用:WEEL

引用にもありますが、無用のトラブルにならないように慎重に、当面は控えておいた方が良いでしょう。
個人ブログへの利用なら問題はないでしょうがね。

スポンサーリンク

まとめ:使うっきゃない画像生成

技術の進歩は早いですね。ChatGPTが利用できるようになったのが2022年11月、Geminiはちょっと遅れて2023年12月ですから、まだ2年ほどしか経過していないにもかかわらず、あらゆる分野で使用されつつあります。
個人でも例外ではなく、テキストにとどまらず画像も気楽に作成できる環境が整いつつあります。しかもGeminiは基本「無料」です。これはもう、使ってみるしかありませんね。

関連記事

参考情報

おまけ:ちょっと遊んでみました(閲覧注意)

大阪万博のイメージキャラクター「ミャクミャク」と万博会場で大発生している「ユスリカ」が合体したメージ画像をお願いしたところ…。

ミャクミャク

のようなイメージ画像になりました。
気持ち悪いね。笑笑

タイトルとURLをコピーしました