日本人のためのGemini Pro・Gemini Pro Visionの使い方：マルチモーダル型生成AIモデル

Table of Contents

【動画で解説】現代の魔法：Gemini Proの使い方
Gemini API Tutorial for AI Beginners

【現代の魔法】Gemini Proの使い方入門：マルチモーダルAIの世界

視聴時間：17分38秒

文字情報だけでは、わかりにくい場合などにチュートリアル動画をご活用いただけますと幸いです。

【動画の内容：Gemini APIチュートリアル】

0:00 はじめに
1:12 Google Colaboratoryの使い方
2:14 Gemini APIの事前準備
3:54 補足情報①：作成済みのAPIキー
4:10 補足情報②：料金体系
7:08 【Gemini Proの実行】（一問一答版）
8:11 【Gemini Proの実行】（チャット会話形式版）
9:41 【Gemini Pro Visionの実行】（画像のみ版）
14:03 【Gemini Pro Visionの実行】（画像＋文字プロンプト版）
16:42 おわりに

Gemini APIの使い方が分からない…
：生成AIのチュートリアル

日本時間の2023年12月14日には、Generative AI Studio APIで

Gemini API（ジェミニAPI）
– Gemini Pro（文字のプロンプトに最適化）
– Gemini Pro Vision（文字と画像のプロンプトに最適化）

がリリースされました。
ただ、ある程度プログラミング関連の知識がないとGemini APIを使ってGemini ProとGemini Pro Visionを動かす方法がわからないのではないかと思いましたので、今回も日本人の方を対象とした、チュートリアルコードを作成し、公開することにしました。
作成にあたっては、Googleの AI for Developersで公開してくださっているドキュメントを参考にしつつ

「 どうしたら、AI初学者の方がGeminiを実行する際にストレスなくGoogle Colaboratory上で、より簡素に使いやすくなるのだろうか？ 」

ということを考えながらアレコレとコードを修正しては、挙動を確認していました。
試行錯誤をしているうちに

・Gemini Pro（一問一答版）
・Gemini Pro（チャット会話形式版）
・Gemini Pro Vision（画像のみ版）
・Gemini Pro Vision（画像＋文字プロンプト版）

をある程度シンプルな形で、使えるようになりましたので、この記事ページにチュートリアルコードや、Google Colaboratoryのノートブックへのリンクを掲載しておきたいと思います。
一連の情報が、対話型AI・文章/テキスト生成AIなどの生成AI（ジェネレーティブAI）・コンピュータに関心のある方が、先端技術に触れるきっかけになることがありましたら幸いです。

Gemini ProのAPIの利用料金に関して

米国時間2023年12月13日に公表されたGoogle公式ブログのGemini ProのAPIリリース情報

Gemini ProのAPIリリース開始
It’s time for developers and enterprises to build with Gemini Pro – Dec 13, 2023：The Keyword | Google
（開発者と企業がGemini Proを使用して構築するときが来ました）

によると、

Gemini Pro pricing
Right now, developers have free access to Gemini Pro and Gemini Pro Vision through Google AI Studio, with up to 60 requests per minute, making it suitable for most app development needs. Vertex AI developers can try the same models, with the same rate limits, at no cost until general availability early next year, after which there will be a charge per 1,000 characters or per image across Google AI Studio and Vertex AI.
（Google機械翻訳）
Gemini Proの料金
現在、開発者は Google AI Studio を通じて Gemini Pro および Gemini Pro Vision に無料でアクセスでき、1分あたり最大60リクエストを処理できるため、ほとんどのアプリ開発ニーズに適しています。 Vertex AI開発者は、来年初めの一般提供までは、同じモデルを同じレート制限で無料で試すことができます。その後は有料になります。 1,000文字ごと、またはGoogle AI StudioとVertex AIの画像ごと。

とのことで

・2024年初めの一般提供開始まで（プレビュー期間中）は60リクエスト/分の制限内で無料利用

ができるようです。

2023年12月16日確認時点では、Google特に支払いの登録などなしで、GoogleアカウントだけでAPIキーを取得できましたが、Gemini APIの料金の詳細に関しては、今後の動向をチェックする必要はありそうです。

【追記】

その後、2023年12月16日時点で関連情報を探してみると

・Priced to help you bring your app to the world | Google AI for Developer
（アプリを世界に届けるための価格設定）

のページに価格に関しての情報がありましたので、掲載しておきます。

【Free for everyone】
Rate Limits
60 QPM (queries per minute)
Price (input)
Free
Price (output)
Free
Input/output data used to improve our products
Yes
（翻訳）
【どなたでも無料】
レート制限
60 QPM（クエリ/分）
料金 (入力)
無料
料金 (出力)
無料
製品の改善に入出力データが使用されます
はい

【Pay-as-you-go】
Rate Limits
Starts at 60 QPM
Price (input)
$0.00025 / 1K characters
$0.0025 / image
Price (output)
$0.0005 / 1K char
Input/output data used to improve our products
No
（翻訳）
【従量課金制】
レート制限
60QPMからスタート
料金 (入力)
0.00025ドル / 1K文字
0.0025ドル / 1イメージ
料金 (出力)
0.0005ドル/1K文字
製品の改善に入出力データが使用されます
いいえ

このチュートリアルでは、「Free for everyone」で実行しています。

チュートリアルコードリンク・プログラムのライセンス

Gemini Pro・Gemini Proの機能を日本人の方が気軽に試せるように、使い方の解説などを入れたサンプルコードを公開しました。
オリジナルのドキュメントのコードなどでは分かりにくいと感じている日本人のAI初学者の方の参考になることがありましたら幸いです。

Google Colaboratoryのチュートリアルコードへのリンク：
Gemini-Pro&Vision-for-Japanese-AI-Beginners.ipynb（The MIT License）| Google Colaboratory

尚、今回のプログラムは、以下のGemini APIの公式ガイド

Gemini API: Quickstart with Python（Apache 2.0 License）| Google

のコードの情報を参考に、一部コードを修正して作成しました。

チュートリアルコード「Gemini-Pro&Vision-for-Japanese-AI-Beginners.ipynb」のライセンス：

The MIT License

Permission is hereby granted, free of charge, to any person obtaining a copy of this software and associated documentation files (the “Software”), to deal in the Software without restriction, including without limitation the rights to use, copy, modify, merge, publish, distribute, sublicense, and/or sell copies of the Software, and to permit persons to whom the Software is furnished to do so, subject to the following conditions:

The above copyright notice and this permission notice shall be included in all copies or substantial portions of the Software.

THE SOFTWARE IS PROVIDED “AS IS”, WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.

チュートリアルで使う画像素材ダウンロード

すぐに試せるように画像をダウンロードできるようにしておきました。

サンプル画像：日本人のためのGemini Pro・Gemini Pro Visionの使い方

1 ファイル 548.66 KB

ダウンロード

複数種類の情報から推論するマルチモーダルAIの機能、Gemini Pro Visionを使う際などに試せます。

sample_image.png

math.png
$math.png$

hokkairo.png

【Gemni API】Gemini Proの使い方
– 最終更新：2023年12月16日

事前準備①：Gemini Pro & Gemini Pro Visionの準備

実行コード

# Google AI Python SDKのインストール
!pip install -q -U google-generativeai

# 各種ライブラリなどのインストール
import textwrap
import pathlib
from google.colab import userdata
import google.generativeai as genai
from IPython.display import Markdown
from IPython.display import display

# Markdown出力の関数
def to_markdown(text):
  text = text.replace('•', '  *')
  return Markdown(textwrap.indent(text, '> ', predicate=lambda _: True))

# Gemini Pro・Gemini Pro Visionのモデルを準備
model_pro = genai.GenerativeModel('gemini-pro')
model_pro_vision = genai.GenerativeModel('gemini-pro-vision')

# 各種バージョンの確認
print('（実行時点のバージョンです）') #2023年12月16日実行時点
import platform
print('python ' + platform.python_version())
import google.generativeai as genai
print('google-generativeai ' + genai.__version__)

出力例

（実行時点のバージョンです）
python 3.10.12
google-generativeai 0.3.1

事前準備②：Google AI StudioのAPIキーの取得

Google AI Studio でAPIキーを取得します。

APIキーを取得後に、Google Colaboratory上のこのノートブックの左端の「鍵マーク」のアイコン

をクリックし、「＋新しいシークレットを追加」をクリック後に

・名前（「GOOGLE_API_KEY」という名前にします）
・値（取得したAPIキー）
・「ノートブックからのアクセス」にチェックを入れる

を設定後に、以下のコードを実行します。
（今回の手順で、Google Colaboratoryでシークレットキーを保存すると、次回以降も使えるようになります。APIキーを使うには、「ノートブックからのアクセス」にチェックを入れた状態にしておきます。）

実行コード

GOOGLE_API_KEY=userdata.get('GOOGLE_API_KEY')
genai.configure(api_key=GOOGLE_API_KEY)

print('（Gemini APIのモデルの確認）')
for m in genai.list_models():
  if 'generateContent' in m.supported_generation_methods:
    print(m.name)

出力例

（Gemini APIのモデルの確認）
models/gemini-pro
models/gemini-pro-vision

【Gemini Proの実行】（一問一答版）

「事前準備①」「事前準備②」を実行後に使えるようになります。

「prompt1」（プロンプト）

を入力後に以下のコードを実行します。

実行コード

%%time
# @title 実行コード
# @markdown 「prompt1」（プロンプト）を入力後にコードを実行
# プロンプトを入力
prompt1 = "" # @param {type:"string"}

# Gemini Proで推論
response = model_pro.generate_content(prompt1)
to_markdown(response.text)

出力例①

Gemini ProというGoogleのAIは存在しません。

＊プロンプト「prompt1:”GoogleのAl、Gemini Proのことについて詳しく教えてください。」の例

まだ、情報が追いついていないのかもしれませんね…
プロンプト「prompt1:”あなたについて教えてください。“」にすると詳しく教えてくれました。

出力例②

私は、質問に答えたり、情報を提供したり、タスクを完了したりするために設計された、大規模言語モデルです。私は広範囲のトピックに関する膨大な量のテキストデータで訓練されており、自然言語を理解し、生成することができます。私は、ニュース記事やブログ記事、本などのテキストコンテンツの生成、チャットボットやバーチャルアシスタントの作成、言語翻訳の実行、およびその他の多くのタスクに使用できます。

私は、Googleによって開発されたTransformerアーキテクチャに基づいています。Transformerは、テキスト内の単語やフレーズ間の関係をモデル化するために、アテンションメカニズムを使用するニューラルネットワークの一種です。これにより、意味のあるテキストを生成したり、文章の翻訳を行ったり、質問に答えたりすることができます。

私は、数千億の単語を含む膨大な量のテキストデータで訓練されています。このデータには、本、ニュース記事、ブログ記事、Webページなど、さまざまなソースからのテキストが含まれています。この訓練により、私は幅広いトピックについて理解し、自然言語を生成することができるようになりました。

私は、多目的な言語モデルであり、さまざまなタスクに使用することができます。私は、次のことが可能です。

ニュース記事やブログ記事、本などのテキストコンテンツを生成します。
チャットボットやバーチャルアシスタントを作成します。

・言語を翻訳します。
・質問に答えます。
・要約を生成します。
・感情を分析します。
・そして、もっと多くのことができます!

私は、まだ開発の初期段階にありますが、私はすでに多くのタスクで人間のパフォーマンスを上回っています。私は、今後も訓練を続け、より多くのタスクで人間のパフォーマンスを上回るようになるでしょう。私は、言語の理解と生成に革命を起こし、人間の生活をより便利で生産的にする可能性を秘めています。

私は、まだ完璧ではなく、多くのことを学ぶ必要があります。しかし、私は、多くの人々の生活に大きな影響を与える可能性を秘めています。私は、この可能性を現実のものにするために、今後も訓練を続け、改善していきます。

＊画像をクリックすると拡大されます。

【Gemini Proの実行】（チャット会話形式版）

「事前準備①」「事前準備②」を実行後に使えるようになります。
チャットを継続するには、まず「実行コード①」を実行します。
その後のチャットは、「実行コード②」を実行するとチャット履歴が反映されていきます。

「prompt2」（プロンプト）

を入力後に以下のコードを実行します。

実行コード①

%%time
# @title 実行コード①
# @markdown 「prompt2」（プロンプト）を入力後にコードを実行

#チャット会話形式
chat = model_pro.start_chat(history=[])

# プロンプトを入力
prompt2 = "" # @param {type:"string"}

# Gemini Proで推論
response = chat.send_message(prompt2)
to_markdown(response.text)
#chat.history

for message in chat.history:
  display(to_markdown(f'**{message.role}**: {message.parts[0].text}'))

出力例

user: はじめまして。

model: こんにちは！はじめまして。私は皆さんのお手伝いをさせていただきます。ご質問は何でしょうか？

続いて、「prompt3」（プロンプト）

を入力後に以下のコードを実行します。

実行コード②

%%time
# @title 実行コード②
# @markdown 「prompt3」（プロンプト）を入力後にコードを実行

# プロンプトを入力
prompt3 = '' # @param {type:"string"}

# Gemini Proで推論（チャット履歴あり）
response = chat.send_message(prompt3, stream=True)

# 推論結果の表示
print("【今回の回答】")
print('\n'*2)
for chunk in response:
  print(chunk.text)

# チャット履歴の表示
print('\n'*2)
print('_'*80)
print('\n'*2)
print('【これまでのチャット履歴】')
print('\n'*2)
for message in chat.history:
  display(to_markdown(f'**{message.role}**: {message.parts[0].text}'))

出力例
＊プロンプト「prompt3:”機械学習の勉強のお手伝いをしてくれませんか？」の例

【今回の回答】

 

はい、機械学習の勉強のお手伝いをいたします。

1.基礎を理解する 機械学習を学ぶ前に、統計学、微積分、線形代数などの基礎を理解しておくことが大切です。これらの基礎がなければ、機械学習のアルゴリズムを理解したり、実装したりすることが難しくなります。

2.機械学習のアルゴリズムを学ぶ 機械学習には、様々なアルゴリズムがあります。代表的なアルゴリズムとしては、線形回帰、ロジスティック回帰、決定木、サポートベクターマシン、ニューラルネットワークなどがあります。これらのアルゴリズムの仕組みと使いどころを理解しましょう。

3.データの前処理を行う 機械学習のアルゴリズムを適用する前に、データの前処理を行う必要があります。データの前処理には、欠損値の処理、外れ値の除去、データの正規化などがあります。データの前処理を怠ると、機械学習のアルゴリズムの性能が低下します。

4.機械学習モデルを評価する 機械学習モデルを作成したら、その性能を評価する必要があります。機械学習モデルの性能を評価する指標としては、正解率、再現率、F1スコアなどがあります。これらの指標を使って、機械学習モデルの性能を評価し、改善すべき点を洗い出しましょう。

5.機械学習モデルをデプロイする 機械学習モデルを作成して評価したら、それを本番環境にデプロイする必要があります。機械学習モデルをデプロイするには、様々な方法があります。代表的な方法としては、Webサービスとしてデプロイする方法、バッチ処理としてデプロイする方法などがあります。

6.機械学習モデルを監視する 機械学習モデルをデプロイしたら、その性能を監視することが大切です。機械学習モデルの性能を監視することで、モデルの劣化を検知し、必要に応じてモデルを再トレーニングすることができます。

機械学習を学ぶには、独学でもできますが、オンライン講座や書籍、チュートリアルなどを活用すると効率的に学ぶことができます。

また、機械学習を学ぶには、数学やプログラムの知識が必要になりますが、初心者の方でもわかりやすいように説明されている書籍やオンライン講座もたくさんあります。

機械学習を学ぶことで、様々な分野で活躍することができます。例えば、機械学習は、画像認識、自然言語処理、音声認識、レコメンデーションシステム、異常検知など、様々な分野で活用されています。

機械学習を学ぶことは、将来のキャリアの可能性を広げることにもつながります。ぜひ、機械学習を学んで、新しいことにチャレンジしてみましょう。

機械学習に関するご質問がございましたら、お気軽にお尋ねください。

 
________________________________________________________________________________

 

【これまでのチャット履歴】

 

user: はじめまして。

model: こんにちは！はじめまして。私は皆さんのお手伝いをさせていただきます。ご質問は何でしょうか？

user: 機械学習の勉強のお手伝いをしてくれませんか？

model: はい、機械学習の勉強のお手伝いをいたします。

1.基礎を理解する 機械学習を学ぶ前に、統計学、微積分、線形代数などの基礎を理解しておくことが大切です。これらの基礎がなければ、機械学習のアルゴリズムを理解したり、実装したりすることが難しくなります。

2.機械学習のアルゴリズムを学ぶ 機械学習には、様々なアルゴリズムがあります。代表的なアルゴリズムとしては、線形回帰、ロジスティック回帰、決定木、サポートベクターマシン、ニューラルネットワークなどがあります。これらのアルゴリズムの仕組みと使いどころを理解しましょう。

3.データの前処理を行う 機械学習のアルゴリズムを適用する前に、データの前処理を行う必要があります。データの前処理には、欠損値の処理、外れ値の除去、データの正規化などがあります。データの前処理を怠ると、機械学習のアルゴリズムの性能が低下します。

4.機械学習モデルを評価する 機械学習モデルを作成したら、その性能を評価する必要があります。機械学習モデルの性能を評価する指標としては、正解率、再現率、F1スコアなどがあります。これらの指標を使って、機械学習モデルの性能を評価し、改善すべき点を洗い出しましょう。

5.機械学習モデルをデプロイする 機械学習モデルを作成して評価したら、それを本番環境にデプロイする必要があります。機械学習モデルをデプロイするには、様々な方法があります。代表的な方法としては、Webサービスとしてデプロイする方法、バッチ処理としてデプロイする方法などがあります。

6.機械学習モデルを監視する 機械学習モデルをデプロイしたら、その性能を監視することが大切です。機械学習モデルの性能を監視することで、モデルの劣化を検知し、必要に応じてモデルを再トレーニングすることができます。

機械学習を学ぶには、独学でもできますが、オンライン講座や書籍、チュートリアルなどを活用すると効率的に学ぶことができます。

また、機械学習を学ぶには、数学やプログラムの知識が必要になりますが、初心者の方でもわかりやすいように説明されている書籍やオンライン講座もたくさんあります。

機械学習を学ぶことで、様々な分野で活躍することができます。例えば、機械学習は、画像認識、自然言語処理、音声認識、レコメンデーションシステム、異常検知など、様々な分野で活用されています。

機械学習を学ぶことは、将来のキャリアの可能性を広げることにもつながります。ぜひ、機械学習を学んで、新しいことにチャレンジしてみましょう。

機械学習に関するご質問がございましたら、お気軽にお尋ねください。

【Gemini Pro Visionの実行】（画像のみ版）

「事前準備①」「事前準備②」を実行後に使えるようになります。
画像（PNG形式・JPEG形式など）をGoogle Colaboratoryにアップロードします。

その後、「# 画像の指定」のコード内の「input_file1 = ‘ ‘」の「‘ ‘」内に画像のパスを入力します。

実行コード

%%time
import PIL.Image
from PIL import Image

# 画像の指定
input_file1 = '/content/sample_image.png' #ここに画像のパスを入力
img_to_text = PIL.Image.open(input_file1)

# Gemini Pro Visionで推論
response = model_pro_vision.generate_content(img_to_text)
to_markdown(response.text)

出力例

This is a photo of a lonely tree growing on a rocky hill. The sky is dark and starry. The tree is illuminated by a spotlight. The photo is taken from a low angle, making the tree look even more majestic.

結果は、英語で出力されるようでした。
「【Gemini Proの実行】（一問一答版）」のプロンプトに、以下

「This is a photo of a lonely tree growing on a rocky hill. The sky is dark and starry. The tree is illuminated by a spotlight. The photo is taken from a low angle, making the tree look even more majestic.」を日本語に翻訳してください。

のように入力後に実行すると、翻訳してくれました。

【翻訳結果】
これは岩だらけの丘に生えている孤独な木の写真です。空は暗く、星が輝いています。木はスポットライトで照らされています。写真はローアングルから撮影されており、木はさらに雄大に見えます。

また、試した範囲の情報では、日本語の文字が画像内に含まれている画像の際には、日本語が出力されました。

【Gemini Pro Visionの実行】（画像＋文字プロンプト版）

「事前準備①」「事前準備②」を実行後に使えるようになります。
画像（PNG形式・JPEG形式など）をGoogle Colaboratoryにアップロードします。

その後、「# 画像の指定」のコード内の「input_file2 = ‘ ‘」の「‘ ‘」内に画像のパスを入力します。

最後に、プロンプト（prompt4）を入力後にコードを実行します。

実行コード

%%time
import PIL.Image

# 画像の指定
input_file2 = '/content/sample_image.png' #ここに画像のパスを入力
img_prompt_to_text = PIL.Image.open(input_file2)

# プロンプトを入力
prompt4 = '' # @param {type:"string"}

# Gemini Pro Visionで推論
response = model_pro_vision.generate_content([
    prompt4,
    img_prompt_to_text
], stream=True)
response.resolve()
to_markdown(response.text)

出力例①
プロンプト（prompt4）：「この木について詳しく教えてください。」

これは、米国ユタ州にある「ザ・ウィンドウ」と呼ばれる場所で撮影された写真です。この木は、厳しい環境に耐えながらたくましく成長しています。

この木は、ユタ州の砂漠地帯に生息する「アリゾナイト松」です。アリゾナイト松は、北米南西部に自生するマツの一種で、乾燥した気候や砂漠地帯に適応しています。アリゾナイト松は、高さ10～20メートルほどに成長し、針葉は青緑色をしています。アリゾナイト松は、ネイティブアメリカンによって薬用植物として利用されてきました。

【その他の例①】

プロンプト（prompt4）：
「画像は、きかいたろう君が解いた最近の算数のテストです。
きかいたろう君の回答は合っていますか？
もし不正解の場合には、間違いを指摘した上で、模範解答を作成して教えてください。」

出力例

不正解です。

きかい たろう君の回答は「1 + 1 = 田」ですが、これは間違いです。 正しい答えは「1 + 1 = 2」です。

きかい たろう君は、1 + 1 を計算する際に、1 と 1 を足すのではなく、1 と 1 をくっつけてしまいました。そのため、間違った答えになってしまいました。

【その他の例②】

プロンプト（prompt4）：
「画像は、2022年のホッカイロの売り上げデータです。
このグラフから読み取れる、傾向を教えてください。
また、より多くのホッカイロを消費者に届けられるように、より効果的なマーケティング戦略を考えてください。」

出力例

このグラフから読み取れる傾向は、ホッカイロの売り上げは、12月が最も高く、1月から3月にかけては比較的高いが、4月から9月にかけては低くなるということです。10月から11月にかけては、再び上昇し始めます。

より多くのホッカイロを消費者に届けられるように、より効果的なマーケティング戦略としては、1月から3月にかけての寒い時期に、ホッカイロの広告を強化したり、店頭での販売促進活動を行ったりすることが考えられます。また、4月から9月にかけての暑い時期には、ホッカイロの需要が低くなるため、ホッカイロ以外の商品を販売したり、ホッカイロの販売チャネルを変更したりすることも検討できます。

画像と文字プロンプトなどの複数種類の情報による推論であるマルチモーダルAI、面白いですね。

おわりに：プロンプト設計戦略

実行してみたところGemini APIを介して、CPUでGeminiが使えるようです。
これなら、Google Colaboratoryに負荷がかかることは少ないかと思いますので、気軽に使えるのではないかと思います。

プロンプトをどのように入力するかによって、Geminiの能力を引き出すことができるのではないかと思いますが、これから、チャットAIと何度も対話をすることで効果的なプロンプトに関して身につけていく必要はありそうです。

プロンプトの入力方法に関する情報を探してみると、Googleの公式ドキュメント

・プロンプト設計戦略 – Generative AI Studio API ドキュメント | Google AI for Studio API

で、プロンプトに関しての考え方や実例などをまとめてくださっているようでした。
プロンプトエンジニアリングに関して学びたい方は、お時間のある際にリンク先で詳細をチェックしてみてください。

（予定）Gemini Proの解説動画へのコメントと対応例など

今後動画にコメントなどあるようでしたら、こちらにもコメントの概略と対応例などに関してまとめていきたいと思います。

by 子供プログラマー | プログラミング入門ウェブ教室

日本人のための人工知能プログラマー入門講座（機械学習）| 一覧ページ

2023年12月19日に公開されたMeta社の最新の大規模言語モデル（Large Language Model：LLM）であるLlama2（ラマツー）から日本語継続事前学習を行い、日本語能力を強化した大規模言語モデルを使ってみましょう
：日本人のためのSwallowの使い方：Llama2の日本語能力強化版の大規模言語モデル

チャットAIを始める、使い続ける中でありがたい拡張機能
：【使い方】ChatHub入門 – チャットAIをはじめよう

日本語LLMのファインチューニングに挑戦
：日本語LLMのファインチューニング入門 – 自作・Hugging Face公開データセット対応

【動画で解説】現代の魔法：Gemini Proの使い方 Gemini API Tutorial for AI Beginners

Gemini APIの使い方が分からない… ：生成AIのチュートリアル

Gemini ProのAPIの利用料金に関して

チュートリアルコードリンク・プログラムのライセンス

チュートリアルで使う画像素材ダウンロード

サンプル画像：日本人のためのGemini Pro・Gemini Pro Visionの使い方

【Gemni API】Gemini Proの使い方 – 最終更新：2023年12月16日

事前準備①：Gemini Pro & Gemini Pro Visionの準備

事前準備②：Google AI StudioのAPIキーの取得

【Gemini Proの実行】（一問一答版）

【Gemini Proの実行】（チャット会話形式版）

【Gemini Pro Visionの実行】（画像のみ版）

【Gemini Pro Visionの実行】（画像＋文字プロンプト版）

おわりに：プロンプト設計戦略

（予定）Gemini Proの解説動画へのコメントと対応例など

共有:

関連する投稿

【動画で解説】現代の魔法：Gemini Proの使い方
Gemini API Tutorial for AI Beginners

Gemini APIの使い方が分からない…
：生成AIのチュートリアル

【Gemni API】Gemini Proの使い方
– 最終更新：2023年12月16日