この記事は Dries Buytaert 氏の公式ブログ「dri.es」の翻訳記事です。Driesブログの記事一覧よりすべての翻訳記事をご覧いただけます。
やり遂げました。自分のウェブサイトにある9,000枚の画像すべてにaltテキストを生成し終えました。
最初は単純な作業のつもりが、気づけば4回にわたる連載になっていました。さまざまなLLMの比較、ローカル処理かクラウド処理かの検討、そして自動化ワークフローの構築と進んできました。
でも、この最終ステップは今までとは違いました。技術の話ではなく、信頼と「手放すこと」の話だったのです。
ツールの実際の動き
前回の記事では、1枚の画像に対してaltテキスト生成を自動化するスクリプトを紹介しました。最終ステップは、altテキストが未設定の9,000枚の画像にそのスクリプトを実行することです。対象はフォトアルバムとブログ記事に収められた、20年以上分の画像です。
実際に動いている様子がこちらです。

そう、このGIF画像のaltテキストもAIが生成しています。AIがAIを説明するという、本来なら時空の連続体を引き裂きそうな再帰的状況です。残念ながらポータルは出現しませんでした。せいぜい、どこか別の次元でスタックオーバーフローを引き起こしたくらいでしょうか。私はその間、夕食の食器を洗っていました。
ChatGPT-4oは9,000枚すべてを1枚あたり0.5セント、合計50ドル以下で処理しました。しかも数日間にわたってサービスを酷使したにもかかわらず、レート制限にもエラーにも一度も引っかかりませんでした。これは正直すごいと思いました。
AIは私より上手だった
スクリプトに9,000枚のラベル付けを任せるのは、やはり不安でした。自動生成された説明文に誤りがあって、サイトのアクセシビリティがかえって下がってしまったら?将来のAIモデルがその誤りを学習してしまったら?
慎重に進めることにして、最初はアルバムごとに処理を止めて、すべてのaltテキストを確認していました。250枚ほど確認したところで、あることに気づきました。誤りを修正しているのではなく、言葉を少し言い換えているだけ、ということに。
そして本当の驚きが訪れました。5年前に自分が手動で説明文を書いたアルバムに対してスクリプトを走らせてみたのです。結果は、正直に言って打ちのめされるようなものでした。AIのほうがよいaltテキストを書いていたのです。私が見落としていた細部を拾い、場面をより明確に描写し、私が気づかなかったニュアンスまで捉えていました。過去の自分は、altテキストを書くのがあまり得意ではなかったようです。
それだけではありません。LLMは日本語のレストランメニューを理解し、ハンガリー語のテキストを読み解き、ドイツ語のDrupal書籍を解釈し、オランダ語の道路標識を読みました。カンファレンスのバッジを認識してイベント名を正確にラベル付けし、さまざまな国の文化的な文脈を理解しました。私自身が忘れていた、あるいはそもそも気づいていなかった写真の細部まで拾い上げてくれたのです。
これはもはや、AIが画像を説明できるかどうかという話ではない——AIが自分よりも上手く説明していることを、自分が受け入れられるかどうかという話なのだ、と気づき始めました。
まとめ
AIは完璧ではありませんが、とても役に立ちます。幻覚(ハルシネーション)や不正確さを心配する声はよく聞きますし、私もそう思っていました。でも9,000枚の画像にaltテキストを生成してみて、見えてきたのは違うものでした。本物の、実用的な価値です。
サイトをより使いやすくしてくれただけでなく、私自身への挑戦にもなりました。ときには一歩引いて、ツールに任せたほうがより良い結果になることがある——そのことを教えてくれました。
— Dries Buytaert
この記事は「Trusting AI with my images wasn't easy」(投稿日:2025-02-24)の翻訳記事です。
カテゴリ
タグ