このページは Cloud Translation API によって翻訳されました。

安全性設定

Gemini API には、プロトタイピングの段階で調整できる安全性設定が用意されています。これにより、アプリケーションに限定的な安全性構成が必要かどうかを判断できます。これらの設定を 4 つのフィルタカテゴリで調整して、特定の種類のコンテンツを制限または許可できます。

このガイドでは、Gemini API が安全性設定とフィルタリングを処理する方法と、アプリの安全性設定を変更する方法について説明します。

安全フィルタ

Gemini API の調整可能な安全フィルタは、以下のカテゴリに対応しています。

カテゴリ	説明
ハラスメント	ID や保護されている属性をターゲットとする否定的なコメントや有害なコメント。
ヘイトスピーチ	粗暴、無礼、または冒とく的なコンテンツ。
露骨な性表現	性行為やわいせつな内容に関する情報が含まれるコンテンツ。
危険	有害な行為を助長、促進、奨励するもの。

これらのカテゴリは HarmCategory で定義されています。Gemini モデルは、HARM_CATEGORY_HARASSMENT、HARM_CATEGORY_HATE_SPEECH、HARM_CATEGORY_SEXUALLY_EXPLICIT、HARM_CATEGORY_DANGEROUS_CONTENT のみをサポートします。他のすべてのカテゴリは、PaLM 2（レガシー）モデルでのみ使用されます。

これらのフィルタを使用して、ユースケースに適したものを調整できます。たとえば、ビデオゲームの台詞を作成する場合、ゲームの性質上、危険に分類されるコンテンツを追加で許容できると考えることができます。

Gemini API には、調整可能な安全フィルタに加えて、子どもの安全を危険にさらすコンテンツなど、中核的な危害に対する保護機能も組み込まれています。この種の被害は常にブロックされ、調整することはできません。

コンテンツセーフティフィルタリングレベル

Gemini API は、コンテンツが安全でない確率を HIGH、MEDIUM、LOW、NEGLIGIBLE のいずれかに分類します。

Gemini API は、重大度ではなく、コンテンツが安全でない確率に基づいてコンテンツをブロックします。コンテンツによっては、危害の重大度が高いにもかかわらず、安全でない確率が低くなるものもあるため、この点を考慮することが重要です。たとえば、次の文を比較します。

ロボットが私をパンチした。
ロボットが私を切り付けた。

最初の文は安全でない確率が高くなる可能性がありますが、暴力的な観点では 2 番目の文の方が重大度が高いと考えることもできます。したがって、エンドユーザーへの悪影響を最小限に抑えながら主要なユースケースをサポートするには、適切なレベルのブロックを慎重にテストし、検討することが重要です。

リクエストごとの安全フィルタリング

API に対するリクエストごとに安全性設定を調整できます。リクエストを送信するとコンテンツが分析され、安全性評価が割り当てられます。安全性評価には、有害性の分類のカテゴリと確率が含まれます。たとえば、ハラスメントカテゴリの可能性が高いためにコンテンツがブロックされた場合、返される安全性評価のカテゴリは HARASSMENT、危害の可能性は HIGH に設定されます。

デフォルトでは、安全性設定により、どのフィルタでも安全ではない可能性が高いコンテンツ（プロンプトを含む）がブロックされます。このベースライン安全性は、ほとんどのユースケースで機能するように設計されているため、安全性設定の調整は、アプリで一貫して必要な場合にのみ行ってください。

次の表に、カテゴリごとに調整できるブロック設定を示します。たとえば、ヘイトスピーチ カテゴリのブロック設定を [少量をブロック] に設定すると、ヘイトスピーチのコンテンツである可能性が高いものがすべてブロックされます。ただし、それより低い確率であればすべて許可されます。

しきい値（Google AI Studio）	しきい値（API）	説明
ブロックなし	`BLOCK_NONE`	安全でないコンテンツが表示される可能性にかかわらず常に表示する
少量をブロック	`BLOCK_ONLY_HIGH`	安全でないコンテンツである可能性が高い場合にブロックする
一部をブロック	`BLOCK_MEDIUM_AND_ABOVE`	安全でないコンテンツが発生する可能性が中程度または高い場合にブロックする
ほとんどをブロック	`BLOCK_LOW_AND_ABOVE`	安全でないコンテンツが発生する可能性が低い、中程度、高い場合はブロックする
なし	`HARM_BLOCK_THRESHOLD_UNSPECIFIED`	しきい値が指定されていません。デフォルトのしきい値を使用してブロックします

設定しない場合、すべてのカテゴリでデフォルトのブロック設定が [一部をブロック] になります。

これらの設定は、生成サービスに対するリクエストごとに設定できます。詳しくは、HarmBlockThreshold API リファレンスをご覧ください。

安全に関するフィードバック

generateContent は、安全性に関するフィードバックを含む GenerateContentResponse を返します。

プロンプトフィードバックは、promptFeedback に含まれています。promptFeedback.blockReason が設定されている場合、プロンプトのコンテンツはブロックされています。

レスポンス候補のフィードバックは、finishReason と safetyRatings に含まれています。レスポンスコンテンツがブロックされ、finishReason が SAFETY だった場合は、safetyRatings で詳細を確認できます。ブロックされたコンテンツは返されません。