タグ

aiに関するko-ya-maのブックマーク (360)

  • 続・FramePack動画生成(Windows)|青猫

    前回は手元のPython3.13で無理矢理インストールしたんですが、これだと各種高速化の仕組みが利用できないので、ちゃんと正規の手順でインストールしていきます。 ついでに、そういう高速化の対応も解説してみます。 インストールまずはGitHubのページに行って…… Windows用のワンクリック版パッケージがあるのでダウンロードしてきます。(昨日はまだ無かったよ!) 1.7GBくらいの圧縮ファイルです。ダウンロードした圧縮ファイルを解凍します。 (これにはGitPythonのポータブル版が同梱されてるのでPythonのバージョンとか気にしなくてOKなのです) 解凍したら中にある「update.bat」を実行します。(gitの更新だけだからすぐ終わる) 次に「run.bat」を実行するとモデルのダウンロードが始まって、しばらく時間が経った後に起動されます。(2回目以降はそんなに時間かからない

    続・FramePack動画生成(Windows)|青猫
  • GitHub - lllyasviel/FramePack: Lets make video diffusion practical!

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - lllyasviel/FramePack: Lets make video diffusion practical!
    ko-ya-ma
    ko-ya-ma 2025/04/17
    “FramePack is a next-frame (next-frame-section) prediction neural network structure that generates videos progressively.”
  • GitHub - openai/codex: Lightweight coding agent that runs in your terminal

    You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

    GitHub - openai/codex: Lightweight coding agent that runs in your terminal
  • 【水彩画おじいちゃん先生】プロ画家に生成AIの絵を添削してもらったら驚きの結果に【柴崎春通さんコラボ】

    安野が柴崎春通さん( @WatercolorbyShibasaki )と対談しました! スタッフが用意したAIイラストを水彩画講師の柴崎さんに解説していただいてます。 ■柴崎春通さんさん各種SNS ・Youtube:https://www.youtube.com/@WatercolorbyShibasaki ・X:https://x.com/shibasaki_art ・Instagram:https://www.instagram.com/shiba_watercolor/ ======== <安野貴博プロフィール> 「テクノロジーを通じて未来を描く」活動をしてきた34歳・無所属のエンジニア&起業家&SF作家です。東京都知事選2024で、得票数第5位(15万票超)。 1990年、東京生まれ。東京都文京区育ち。34歳。AIエンジニア起業家、SF作家。開成高校を卒業後、東京大学工学部シ

    【水彩画おじいちゃん先生】プロ画家に生成AIの絵を添削してもらったら驚きの結果に【柴崎春通さんコラボ】
  • roo-logger: Cline Memory Bankとは違うAIの記憶システムを(MCPで)作った理由

    roo-loggerというMCPサーバーを作ったので紹介します。これはCline Memory Bankとは違ったアプローチでAIの記憶を管理するツールです。 最近、AIとの協業どころかvibe codingで全て書かせてしまおうなんて話もある中で、「AIが何をしたか覚えていない問題」が顕在化してきました。特にRoo Codeのような自律型エージェントが大量のファイル操作やコマンド実行をする場合、同じセッションを使い続けることはコンテキスト長的に不可能です。 そして、Memory Bankはプロジェクトの知識を構造化するのに素晴らしいシステムですが、長引くにつれコンテキスト長を制御しづらくなるのと、「AIがどうして何をしたのか」の詳細な記録には向いていないと課題を感じていました。また、プロンプトで作り込むには仕組みが重たすぎるという気持ちも少なからずありました。 かといって備えなしにいきな

    roo-logger: Cline Memory Bankとは違うAIの記憶システムを(MCPで)作った理由
  • MCPサーバーを安全に動かすための工夫

    現在普及しているStdioServerTransport型MCPサーバーの使用方法は設定ファイルにnpxやuvxコマンドを記述する。​これはその場でダウンロードしたスクリプトファイルを実行することを意味する。 https://code.visualstudio.com/docs/copilot/chat/mcp-servers​しかしこの実行方式は開発者には悪名高いソフトウェアのインストール手順「curlしてbash(URLでダウンロードしてきたシェルスクリプトをパイプしてノールック実行)」を思い出させる。「curlしてbash」なら単一の信頼した配布元を基準に判断できるがnpxやuvx方式は依存するライブラリも芋づる式に参照してくる。つまり任意のコードをどこかの経路(MCPサーバー体でなくその内部の別の依存ライブラリかもしれない)を通じて実行される可能性は残る。 curl | bash

    MCPサーバーを安全に動かすための工夫
  • GitHub - google/A2A: An open protocol enabling communication and interoperability between opaque agentic applications.

    The Agent2Agent (A2A) protocol facilitates communication between independent AI agents. Here are the core concepts: Agent Card: A public metadata file (usually at /.well-known/agent.json) describing an agent's capabilities, skills, endpoint URL, and authentication requirements. Clients use this for discovery. A2A Server: An agent exposing an HTTP endpoint that implements the A2A protocol methods (

    GitHub - google/A2A: An open protocol enabling communication and interoperability between opaque agentic applications.
  • ローカルLLMは次世代エロゲの夢を見るか|黒神

    ⚠️ タイトルでお察しの通り、この投稿には若干の NSFW 要素を含みます。 お気をつけてお読みください。 ちょっと前に酔った勢いで書いて下書き状態だったので供養しておきます。 ローカル LLM って夢があるなぁ、というお話です。 きっかけ ちょうど中国から DeepSeek が発表されたときくらいのお話です。 いつものように Twitter を眺めて情報を追っていたところ、やなぎさんのこのツイートが目に止まりました。 DeepSeekR1をきっかけにローカルLLMを触った人向け、日語に強いおすすめモデル紹介 ・calm3-22b-RP-v2(ロールプレイ特化)

    ローカルLLMは次世代エロゲの夢を見るか|黒神
  • Cline(Roo Code)を暴走列車にしたら4日間で数ヶ月分のコードが生成できた

    アイコンが変わったerukitiです。最近はやりのgpt-4o image generationを使って、顔だけだったアイコンに全身が追加されました。2023年4月10日に初めてのLLMプロダクトの開発キックオフからもうすぐで二年です。rat yearなこの業界なんで、変化がめまぐるしすぎますね。 今回は、真に高速なAIコーディングのメソッドを確立するために、中規模くらいのコードをコーディングエージェントのみに書かせる実験をしています。コーディングエージェントはCline派生であるRoo Code(以後Rooと呼ぶ)を使っています。 ※完全に個人研究としてやっているため、会社のリソースは使っていません。 作っているものはコーディングエージェントのコアライブラリ + おまけのCLI 規模としては136ファイル・26410行(一時期30000行弱までいった) なぜコーディングエージェントを使っ

    Cline(Roo Code)を暴走列車にしたら4日間で数ヶ月分のコードが生成できた
  • Blender MCP を試す|npaka

    Blender MCP」を試したのでまとめました。 1. Blender MCP「Blender MCP」は、「MCP」を介して「Claude」を「Blender」と直接対話できるようにします。この統合により、プロンプトによる3Dモデル作成や操作などが可能になります。 2-2. Claude Desktop AIアシスタントのClaudeを利用するためのデスクトップアプリケーションです。 ・Claude Desktop​ 2-3. Python 3.10以降 + uvPythonは、公式サイトから適切なバージョンをインストールします。​ uvのインストール手順は、次のとおりです。 ・Mac brew install uv・Windows powershell -c "irm https://astral.sh/uv/install.ps1 | iex" set Path=C:\Users

    Blender MCP を試す|npaka
  • 【ComfyUI 中級】 VRAM を制御して最高の性能を引き出す設定!|きまま / Easygoing

    はじめにこんにちは、きまま / Easygoing です。 今回は ComfyUI 中級編で、ComfyUI のベストなセッティングを考えます。 初級編 ComfyUI は速い!私が Stable Diffusion webUI Forge から ComfyUI に移行したとき、最初に驚いたのは 動作の速さ でした。 それまで使っていた Stable Diffusion webUI Forge も軽快に動作していましたが、ComfyUI は工程がリアルタイムで表示されて 常に VRAM と RAM の使用量を確認 できるので、さらに最適化を行うことができます。 ComfyUI は、最適なセッティングを行えば、Flux.1 / SD 3.5 / AuraFlow は VRAM 12GB、SDXL は VRAM 6 GB で動作します! ここから、ComfyUI の設定のベストプラクティスを探

    【ComfyUI 中級】 VRAM を制御して最高の性能を引き出す設定!|きまま / Easygoing
  • GPT-4oとGemini-2.0の画像生成能力はいかにして作られているのか

    はじめに Googleが2025年3月14日に発表したGemini-2.0と、続けてOpenAIが2025年3月26日に発表したGPT-4oの画像生成能力は、これまでの画像生成AIでは到達しえないレベルの制御性・品質での画像生成を実現しました。 ここ1年半ほど画像生成AIいじりを仕事にしてきた者としては、これまで積み上げてきた成果や進捗がすべて無に帰すレベルでの進化が突然起き、巨人にすべてを蹴散らされたという感じです。別のスキルを身につけたほうがいいかな… しかし一方で、この進化は決して1日にして為されたものではなく、これまでの研究成果が地道に蓄積された結果です。記事では、その驚異的な画像生成能力、ひいてはAny-to-Anyの生成能力の裏にある技術的な背景を、分かる範囲でサクッと解説していきます。 これまでの画像生成AI TL;DR: これまで広く利用されてきた画像生成AIは、拡散モデ

    GPT-4oとGemini-2.0の画像生成能力はいかにして作られているのか
  • MCPサーバーを利用することはセキュリティ的に安全か?

    1. はじめに Model Context Protocol (以下、MCP) は、大規模言語モデル (LLM) と外部データソースやツールを連携させるための便利なオープンプロトコルです。 一方で、MCPサーバーは誰でも作成してGitHubで公開できるため、場合によっては悪意のあるコードが含まれている可能性も否定できません。自作のMCPサーバーに脆弱性を埋め込んでしまうのは自己責任ですが、実際には、公開されているMCPサーバーをマーケットプレイス経由で使用する場合、どの程度の安全性が期待できるのでしょうか? 稿では、MCPサーバーのマーケットプレイスの現状と、利用する上での注意点について解説します。 1.1. TL;DR 「誰かが何かを保証してくれるわけで、自己責任で使いましょう」というのが前提です。その中でも一定信用して良いと思われるのは、以下の2つです。それ以外は、公式な保証がない状

    MCPサーバーを利用することはセキュリティ的に安全か?
  • 「MCP?聞いたことあるけど使ってない…😅」人向けに初歩から少し踏み込んだ内容まで解説

    今回は一気に「MCPなにもわからない」から「MCP完全に理解した」に一気にレベルアップすることを目的に書いています。 そのために以下をモリモリに解説していきます。 ModelContextProtocol(MCP)とは? MCPがあることでできること MCPを実装するライブラリmodelcontextprotocolを使ってチュートリアル 実装のためのネゴシエーションや通信プロトコルの説明も踏まえてのチュートリアルです。 CursorへのMCPサーバーの登録方法 MCPがどのように動作してツールが使われるのか? FunctionCallingとの違い MCPって単語聞きすげてわからないままに嫌になっている人はこれを読むことで解放されてください。 ModelContextProtocol(MCP)とは? まずはイメージを見てもらうとわかりやすいと思います。 (https://modelcon

    「MCP?聞いたことあるけど使ってない…😅」人向けに初歩から少し踏み込んだ内容まで解説
  • Gemma 3やQwQなどでローカルLLMがそろそろ使い物になってきた - きしだのHatena

    GoogleからGemma 3が出たり、AlibabaがQwQを出したりで、27Bや32BでDeepSeek V3の671Bに匹敵すると言っていて、小さいサイズや2bit量子化でも実際結構賢いので、普通の人がもってるPCでもローカルLLMが実用的に使える感じになってきています。 Gemma 3 Gemma 3は単一GPUで動くLLMで最高と言ってます。 https://blog.google/technology/developers/gemma-3/ 1B、4B、12B、27Bがあって、最高なのは27Bだけど、今回はLM Studioで12Bの4bit量子化版を使います。 LM Studioはここ。モデルのダウンロード含め、わかりやすいです。 https://lmstudio.ai/ とりあえず知識確認でJavaのバージョン履歴を。だいたいあってる! JDK13のリリース年だけ違うけど、

    Gemma 3やQwQなどでローカルLLMがそろそろ使い物になってきた - きしだのHatena
  • RAGのウソを検知する新手法(LLM-as-a-Judgeを超えて)

    記事では、RAGの幻覚(ハルシネーション)を検出するための「LettuceDetect」という手法について、ざっくり理解します。株式会社ナレッジセンスは、エンタープライズ企業向けにRAGを提供しているスタートアップです。 この記事は何 この記事は、RAGのハルシネーションを高速に検出するための「LettuceDetect」の論文[1]について、日語で簡単にまとめたものです。 今回も「そもそもRAGとは?」については、知っている前提で進みます。確認する場合はこちらの記事もご参考下さい。 題 ざっくりサマリー LettuceDetectは、RAGの幻覚を検知するための新しい手法です。LettuceDetect を使うことで、最近流行している「LLM-as-a-Judge」より圧倒的に速く、でも、ほぼ同じ性能で、幻覚を検知できます。KR Labsとウィーン工科大学の研究者らによって2025

    RAGのウソを検知する新手法(LLM-as-a-Judgeを超えて)
  • TypeScript 製の AI エージェントフレームワーク Mastra

    TypeScript 製の AI エージェントフレームワーク Mastra Mastra は TypeScript 製の AI エージェントフレームワークであり Gatsby の開発チームによって開発されています。Mastra サーバーを実行することで REST API サーバーを介してエージェントとやり取りすることができます。Mastra はAI エージェントを構築するために必要なプリミティブな機能を提供するために設計されています。 Mastra は TypeScript 製の AI エージェントフレームワークであり Gatsby の開発チームによって開発されています。Mastra サーバーを実行することで REST API サーバーを介してエージェントとやり取りできます。Mastra は AI エージェントを構築するために必要なプリミティブな機能を提供するために設計されています。 Ma

    TypeScript 製の AI エージェントフレームワーク Mastra
  • ソフトバンクのAI開発企業、小規模言語モデルを公開 30億パラメータ以下の3種類 商用利用も可能

    ソフトバンクの子会社でAIの研究開発などを手掛けるSB Intuitions(東京都港区)は3月5日、小規模言語モデル(SLM)「Sarashina2.2」シリーズを公開した。パラメータ数5億、10億、30億の事前学習モデルの3種類を公開。いずれもMITライセンスで、商用利用なども可能だ。 Sarashina2.2シリーズは、Webコーパスから抽出した日語や英語、コードを含む10兆個のトークンで学習を行った。2.2-3Bモデルについては、同社が以前公開したAIモデル「Sarashina2-7B」よりも、日語能力や数学、コーディング面で長けた性能を持つ。 また日語処理性能においては、中国Alibabaが開発するAIモデル「Qwen」シリーズなど同等のパラメータ数を他社モデルと比較しても、Sarashina2.2はより優れた結果を示したとしている。 関連記事 “大は小を兼ねない”生成AI

    ソフトバンクのAI開発企業、小規模言語モデルを公開 30億パラメータ以下の3種類 商用利用も可能
  • Cline+Claudeでの開発を試してみた感想

    2年くらい前からCopilotやCursorによるコーディングサポートを受けた開発は実際に行なっていたのだけど、先週くらいからコーディングエージェントによる開発にも腰を入れて調査を始めた。以下はその際に雑に調べた情報まとめ。 そんでこの土日くらいまで毎日、主にCline+Claude(その他versionや派生系クライアントも含む)を使って色々とコード生成させたりして実験したのでその感想を書く。 試してみたこと 最初は簡単なpromptを入力してポン出しで生成させるToDoリストとか管理画面みたいなものを作らせてワイワイしてた。だけど何回かやったら流石に飽きてきたので、もう少し規模の大きなタスクに取り掛からせることにした。 既存プロジェクトへのテスト追加 まず最初に、個人開発してるモンハンnowのTA走者向けのwebサイトが現状テストゼロだったので、これに対してClaude 3.5 so

    Cline+Claudeでの開発を試してみた感想
  • Clineに全部賭ける前に 〜Clineの動作原理を深掘り〜

    はじめに AIのコーディングアシスタントとして最近、急速に注目を集めているClineVSCode上でAIと連携し、コード生成からバグ修正、さらにはターミナル操作まで自動化できるこのツールは、多くのエンジニアの生産性を劇的に向上させています。 mizchiさんの『CLINEに全部賭けろ』という記事では、 AIから引き出せる性能は、自分の能力にそのまま比例する AI自体を管理するパイプライン設計を自分のコアスキルにする必要がある ともあるように、エンジニアはClineという強力なツールの最大限を使えるようになっていくべきです。 「AIの上手な使い方」が今のエンジニアにとって必須スキルになりつつあるため、単にClineを使うだけでなく、その仕組みを理解することで得られるメリットは数多くあります。例えば、現時点でのClineの得手・不得手を理解することでAIに対して的確に指示ができたり、clin

    Clineに全部賭ける前に 〜Clineの動作原理を深掘り〜