ゼロショットのセグメンテーション（HQ-SAM，Light HQ-SAM，Python，PyTorch を使用）（Windows 上）

【要約】

HQ-SAMは、既存のSAM（Segment Anything Model）を拡張し、高精度なゼロショットセグメンテーションを実現する。SAMはプロンプトを用いてオブジェクトのセグメンテーションを行うものである。HQ-SAMはSAMを拡張し、高品質なセグメンテーションを可能にするために新しいアプローチを採用している。この手法はWindows上で実行できる。インストールと使用手順とPythonプログラムは公式ページで提供されている、このページでは，インストールと使用手順の説明に加えて、学習済みモデルを使用してセグメンテーションマスクを生成するPythonプログラムも示している．

【目次】

前準備
Segment Anything in High Quality のインストール（Windows 上）
ゼロショットのセグメンテーションの実行（HQ-SAM，Python，PyTorch を使用）（Windows 上）

元画像と，生成されたセグメンテーションマスク

HQ-SAM (Segment Anything in High Quality)

HQ-SAMは、既存のSAM（Segment Anything Model）を拡張し、より高精度なゼロショットセグメンテーションを実現する手法である。SAMは、プロンプト（点、バウンディングボックス、粗いマスクなど）を入力として、多様なオブジェクトや視覚構造のセグメンテーションを可能にするモデルである。しかし、SAMは細かい構造を持つオブジェクトに対するセグメンテーションが不十分で、その精度に限界がある。この問題を解決するために、HQ-SAMはSAMを拡張している。HQ-SAMでは、SAMのマスクデコーダに新しい学習可能な「HQ-Output Token」を導入している。さらに、グローバルなセマンティックコンテキストとローカルな境界（バウンダリ）の詳細を両方考慮する「Global-local Feature Fusion」も導入されている。複数のデータセットでの実験により、HQ-SAMが高精度なセグメンテーションマスクを生成できることが確認されている。

【文献】 Ke, Lei and Ye, Mingqiao and Danelljan, Martin and Liu, Yifan and Tai, Yu-Wing and Tang, Chi-Keung and Yu, Fisher, Segment Anything in High Quality, arXiv:2306.01567, 2023.

https://arxiv.org/pdf/2306.01567v1.pdf

【関連する外部ページ】

公式の GitHub ページ: https://github.com/SysCV/sam-hq
HQ-SAM （ゼロショットのセグメンテーション）のオンラインデモ（Hugging Face上）: https://huggingface.co/spaces/sam-hq-team/sam-hq
HQ-SAM （ゼロショットのセグメンテーション）のオンラインデモ（Google Colaboratory 上）: https://colab.research.google.com/drive/1QwAbn5hsdqKOD5niuBzuqQX4eLCbNKFL?usp=sharing
Paper with Code のページ: https://paperswithcode.com/paper/segment-anything-in-high-quality

【関連項目】 SAM (Segment Anything Model)

前準備

Git のインストール（Windows 上）

Gitは，バージョン管理システム．ソースコードの管理や複数人での共同に役立つ．

Python のインストール（Windows 上）

Build Tools for Visual Studio 2022，NVIDIA ドライバ，NVIDIA CUDA ツールキット 11.8，NVIDIA cuDNN 8.6 のインストール（Windows 上）

PyTorch のインストール（Windows 上）

Segment Anything in High Quality のインストール（Windows 上）

ゼロショットのセグメンテーションの実行（HQ-SAM，Python，PyTorch を使用）（Windows 上）

画像全体からセグメンテーション・マスクを生成（HQ-SAMを使用）（Windows 上）

実行時にファイルを選択する．ファイルは複数選択可能である．

パソコンのビデオカメラ

プロンプトを指定してからセグメンテーション・マスクを生成（HQ-SAMを使用）（Windows 上）

使い方：「masks, scores, logits = predictor.predict()」の引数にプロンプトを設定．実行したらファイルを選択．画像を確認したら，画像をクリックした後，キーボードのキーをクリックして次に進む

import cv2
import numpy as np
from segment_anything import SamPredictor, sam_model_registry

sam_checkpoint = "./pretrained_checkpoint/sam_hq_vit_h.pth"
model_type = "vit_h"
device = "cuda"

sam = sam_model_registry[model_type](checkpoint=sam_checkpoint)
sam.to(device=device)
predictor = SamPredictor(sam)

import tkinter as tk
from tkinter import filedialog

root = tk.Tk()
root.withdraw()
fpaths = filedialog.askopenfilenames()

for fpath in root.tk.splitlist(fpaths):
    print("file name: ", fpath)
    bgr = cv2.imread(fpath)
    rgb = cv2.cvtColor(bgr, cv2.COLOR_BGR2RGB)
    cv2.imshow("1", rgb)
    print("press a key to continue")
    cv2.waitKey(0)

    predictor.set_image(rgb)
    masks, scores, logits = predictor.predict(
        point_coords=None,
        point_labels=None,
        box = None,
        multimask_output=False,
        hq_token_only= False,
    )
    opencv_mat = cv2.cvtColor(masks[0].astype(np.uint8) * 255, cv2.COLOR_GRAY2BGR)
    cv2.imshow("2", opencv_mat)
    print("press a key to continue")
    cv2.waitKey(0)
    cv2.destroyAllWindows()