この記事は Dries Buytaert 氏の公式ブログ「dri.es」の翻訳記事です。Driesブログの記事一覧よりすべての翻訳記事をご覧いただけます。
altテキスト生成にAIをローカルで動かすべきか、クラウドで動かすべきか——精度、アクセシビリティ、オープンソースの価値観のバランスをどう取るかを探ります。
先週、私は自分のウェブサイトにある画像9,000枚分のaltテキストをAIで自動生成する計画について書きました。ローカルで動作するモデルを10種類、クラウドベースのモデルを2種類、合計12のLLMをテストし、altテキスト生成の精度を検証しました。その記事の最後に、2つの問いを立てていました。
- 完璧でなくても、AIが生成した
altテキストを使うべきか? altテキストの生成には、ローカルLLMとクラウドLLM、どちらを使うべきか?
その後、数十件ものメールやLinkedInのコメントが届きました。意見はさまざまで、「オープンソースの理念に合うからローカルモデル一択」という人もいれば、「精度が高いからクラウドLLM一択」という人もいました。さらに、わざわざ異なるモデルで実際にテストして結果を送ってくれた方も何人かいらっしゃいました。
こうした反応のひとつひとつが本当にありがたかったです。オープンに開発・発信していくことの価値を改めて実感しましたし、多様な視点が集まってくること自体、とても刺激になります。
そのなかで、ひとつのコメントが特に印象に残りました。視覚障害のある読者の方からのもので、「不完全なaltテキストは、何もないよりはるかにまし」という一言でした。
そのコメントを読んで、最初の問いへの答えはすんなり出ました。AIが生成したaltテキストは、完璧でなくても、ないよりずっといい、と。
悩んだのは、どのAIモデルを使うかという問いのほうでした。長年オープンソースを推進してきた身として、できれば自分でLLMを動かしたい気持ちは強くあります。ローカルAIは私の信念にも合っています。プライバシーの心配がなく、APIのクォータ制限もなく、透明性が高くて制御しやすい。コスト面でも優秀で、サブスクリプション料金もかかりません。正直に言うと、自前でLLMを動かしているというのは、家族の集まりでちょっと自慢できるネタにもなります(笑)。
でも、問題があります。ローカルモデルは、まだクラウドモデルには及ばないのです。
一般的なノートPCやデスクトップPCのRAMは16〜32GB程度で、精度の低い小型モデルしか動かせません。Apple Mac Studioを192GBフル搭載にしても、それは変わりません。ゲーミングGPUも試してみましたが、私にとっては行き止まりでした。24GBのVRAMを搭載したハイエンドカードでも、複数枚を組み合わせない限り、大型モデルの運用は難しいのが現状です。
ローカルとクラウドのハードウェア格差は歴然としています。まるで自転車でジェットエンジン搭載の飛行機に挑むようなものです。
もう少し待てば、状況は変わるかもしれません。Appleが今年中に新しいMac Studioを発売するとみられており、192GB超のRAMに対応してくれることを期待しています。NVIDIAのProject DIGITSも、コンシューマー向けのLLM実行環境をより現実的なものにしてくれる可能性があります。
ローカルモデル自体も急速に進化しています。ここ数週間だけでも、
- Alibabaがベンチマークでもひけをとらないパフォーマンスを見せるQwen 2.5 VLをリリース
- DeepSeekが強力な新オープンモデルDeepSeek-VL2を公開
- Mark Zuckerberg氏がMetaのLlama 4をテスト中で、数ヶ月以内にリリースされる可能性があると発表
コンシューマー向けハードウェアもローカルモデルも、今後さらに進化していくでしょう。ただ、進化したとしても、クラウドモデルはさらにその先を走り続けています。結局、私に残された選択肢はこの2つです。
- アクセシビリティを優先する:クラウドベースであっても、現時点で最良のAIモデルを使う。
- オープンソースの理念を貫く:精度は多少落ちても、すべてをローカルで動かす。
読者のKrisさんがうまく表現してくれました。「自分の価値観への投資は続けながら、ユーザーを優先してください」。この言葉が刺さりました。
本音ではすべてをローカルで動かしたい。でも、コンテンツのアクセシビリティを確保し、その精度を担保することのほうが今は大切です。というわけで、現時点ではオープンソースの理念を多少妥協してでも、クラウドベースのモデルで進めることにします。
完璧な答えではありませんが、現実的な答えです。自分の信念よりも、アクセシビリティとエンドユーザーのニーズを優先するのが、今は正しい判断だと思っています。
だからといって、ローカルLLMを諦めたわけではありません。モデルのテストを続け、改善の動向を追いながら、適切なハードウェアのアップグレードのタイミングを探っていきます。ローカルAIがaltテキスト生成に十分なレベルに達した瞬間、迷わず切り替えます。次の記事では、実際にこれを実装するための技術的なアプローチをご紹介します。
— Dries Buytaert
この記事は「I want to run AI locally. Here is why I'm not (yet).」(投稿日:2025-02-11)の翻訳記事です。
カテゴリ
タグ