[B! ai] ko-ya-maのブックマーク

続・FramePack動画生成(Windows)｜青猫

前回は手元のPython3.13で無理矢理インストールしたんですが、これだと各種高速化の仕組みが利用できないので、ちゃんと正規の手順でインストールしていきます。ついでに、そういう高速化の対応も解説してみます。インストールまずはGitHubのページに行って…… Windows用のワンクリック版パッケージがあるのでダウンロードしてきます。（昨日はまだ無かったよ！） 1.7GBくらいの圧縮ファイルです。ダウンロードした圧縮ファイルを解凍します。（これにはGitやPythonのポータブル版が同梱されてるのでPythonのバージョンとか気にしなくてOKなのです）解凍したら中にある「update.bat」を実行します。（gitの更新だけだからすぐ終わる）次に「run.bat」を実行するとモデルのダウンロードが始まって、しばらく時間が経った後に起動されます。（２回目以降はそんなに時間かからない

ko-ya-ma 2025/04/19

リンク

GitHub - lllyasviel/FramePack: Lets make video diffusion practical!

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

ko-ya-ma 2025/04/17

“FramePack is a next-frame (next-frame-section) prediction neural network structure that generates videos progressively.”

リンク

GitHub - openai/codex: Lightweight coding agent that runs in your terminal

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

ko-ya-ma 2025/04/17

リンク

【水彩画おじいちゃん先生】プロ画家に生成AIの絵を添削してもらったら驚きの結果に【柴崎春通さんコラボ】

安野が柴崎春通さん（ @WatercolorbyShibasaki ）と対談しました！スタッフが用意したAIイラストを水彩画講師の柴崎さんに解説していただいてます。 ■柴崎春通さんさん各種SNS ・Youtube：https://www.youtube.com/@WatercolorbyShibasaki ・X：https://x.com/shibasaki_art ・Instagram：https://www.instagram.com/shiba_watercolor/ ======== ＜安野貴博プロフィール＞「テクノロジーを通じて未来を描く」活動をしてきた34歳・無所属のエンジニア&起業家&SF作家です。東京都知事選2024で、得票数第5位(15万票超)。 1990年、東京生まれ。東京都文京区育ち。34歳。AI エンジニア、起業家、SF作家。開成高校を卒業後、東京大学工学部シ

ko-ya-ma 2025/04/15

リンク

roo-logger: Cline Memory Bankとは違うAIの記憶システムを（MCPで）作った理由

roo-loggerというMCPサーバーを作ったので紹介します。これはCline Memory Bankとは違ったアプローチでAIの記憶を管理するツールです。最近、AIとの協業どころかvibe codingで全て書かせてしまおうなんて話もある中で、「AIが何をしたか覚えていない問題」が顕在化してきました。特にRoo Codeのような自律型エージェントが大量のファイル操作やコマンド実行をする場合、同じセッションを使い続けることはコンテキスト長的に不可能です。そして、Memory Bankはプロジェクトの知識を構造化するのに素晴らしいシステムですが、長引くにつれコンテキスト長を制御しづらくなるのと、「AIがどうして何をしたのか」の詳細な記録には向いていないと課題を感じていました。また、プロンプトで作り込むには仕組みが重たすぎるという気持ちも少なからずありました。かといって備えなしにいきな

ko-ya-ma 2025/04/13

リンク

MCPサーバーを安全に動かすための工夫

現在普及しているStdioServerTransport型MCPサーバーの使用方法は設定ファイルにnpxやuvxコマンドを記述する。これはその場でダウンロードしたスクリプトファイルを実行することを意味する。 https://code.visualstudio.com/docs/copilot/chat/mcp-serversしかしこの実行方式は開発者には悪名高いソフトウェアのインストール手順「curlしてbash（URLでダウンロードしてきたシェルスクリプトをパイプしてノールック実行）」を思い出させる。「curlしてbash」なら単一の信頼した配布元を基準に判断できるがnpxやuvx方式は依存するライブラリも芋づる式に参照してくる。つまり任意のコードをどこかの経路（MCPサーバー本体でなくその内部の別の依存ライブラリかもしれない）を通じて実行される可能性は残る。 curl | bash

ko-ya-ma 2025/04/12

リンク

GitHub - google/A2A: An open protocol enabling communication and interoperability between opaque agentic applications.

The Agent2Agent (A2A) protocol facilitates communication between independent AI agents. Here are the core concepts: Agent Card: A public metadata file (usually at /.well-known/agent.json) describing an agent's capabilities, skills, endpoint URL, and authentication requirements. Clients use this for discovery. A2A Server: An agent exposing an HTTP endpoint that implements the A2A protocol methods (

ko-ya-ma 2025/04/10

リンク

ローカルLLMは次世代エロゲの夢を見るか｜黒神

⚠️ タイトルでお察しの通り、この投稿には若干の NSFW 要素を含みます。お気をつけてお読みください。ちょっと前に酔った勢いで書いて下書き状態だったので供養しておきます。ローカル LLM って夢があるなぁ、というお話です。きっかけちょうど中国から DeepSeek が発表されたときくらいのお話です。いつものように Twitter を眺めて情報を追っていたところ、やなぎさんのこのツイートが目に止まりました。 DeepSeekR1をきっかけにローカルLLMを触った人向け､日本語に強いおすすめモデル紹介・calm3-22b-RP-v2(ロールプレイ特化)

ko-ya-ma 2025/04/05

リンク

Cline(Roo Code)を暴走列車にしたら4日間で数ヶ月分のコードが生成できた

アイコンが変わったerukitiです。最近はやりのgpt-4o image generationを使って、顔だけだったアイコンに全身が追加されました。2023年4月10日に初めてのLLMプロダクトの開発キックオフからもうすぐで二年です。rat yearなこの業界なんで、変化がめまぐるしすぎますね。今回は、真に高速なAIコーディングのメソッドを確立するために、中規模くらいのコードをコーディングエージェントのみに書かせる実験をしています。コーディングエージェントはCline派生であるRoo Code（以後Rooと呼ぶ）を使っています。 ※完全に個人研究としてやっているため、会社のリソースは使っていません。作っているものはコーディングエージェントのコアライブラリ + おまけのCLI 規模としては136ファイル・26410行（一時期30000行弱までいった）なぜコーディングエージェントを使っ

ko-ya-ma 2025/03/31

リンク

Blender MCP を試す｜npaka

「Blender MCP」を試したのでまとめました。 1. Blender MCP「Blender MCP」は、「MCP」を介して「Claude」を「Blender」と直接対話できるようにします。この統合により、プロンプトによる3Dモデル作成や操作などが可能になります。 2-2. Claude Desktop AIアシスタントのClaudeを利用するためのデスクトップアプリケーションです。・Claude Desktop 2-3. Python 3.10以降 + uvPythonは、公式サイトから適切なバージョンをインストールします。 uvのインストール手順は、次のとおりです。・Mac brew install uv・Windows powershell -c "irm https://astral.sh/uv/install.ps1 | iex" set Path=C:\Users

ko-ya-ma 2025/03/30

リンク

【ComfyUI 中級】 VRAM を制御して最高の性能を引き出す設定！｜きまま / Easygoing

はじめにこんにちは、きまま / Easygoing です。今回は ComfyUI 中級編で、ComfyUI のベストなセッティングを考えます。初級編 ComfyUI は速い！私が Stable Diffusion webUI Forge から ComfyUI に移行したとき、最初に驚いたのは動作の速さでした。それまで使っていた Stable Diffusion webUI Forge も軽快に動作していましたが、ComfyUI は工程がリアルタイムで表示されて常に VRAM と RAM の使用量を確認できるので、さらに最適化を行うことができます。 ComfyUI は、最適なセッティングを行えば、Flux.1 / SD 3.5 / AuraFlow は VRAM 12GB、SDXL は VRAM 6 GB で動作します！ここから、ComfyUI の設定のベストプラクティスを探

ko-ya-ma 2025/03/29

リンク

GPT-4oとGemini-2.0の画像生成能力はいかにして作られているのか

はじめに Googleが2025年3月14日に発表したGemini-2.0と、続けてOpenAIが2025年3月26日に発表したGPT-4oの画像生成能力は、これまでの画像生成AIでは到達しえないレベルの制御性・品質での画像生成を実現しました。ここ1年半ほど画像生成AIいじりを仕事にしてきた者としては、これまで積み上げてきた成果や進捗がすべて無に帰すレベルでの進化が突然起き、巨人にすべてを蹴散らされたという感じです。別のスキルを身につけたほうがいいかな… しかし一方で、この進化は決して1日にして為されたものではなく、これまでの研究成果が地道に蓄積された結果です。本記事では、その驚異的な画像生成能力、ひいてはAny-to-Anyの生成能力の裏にある技術的な背景を、分かる範囲でサクッと解説していきます。これまでの画像生成AI TL;DR: これまで広く利用されてきた画像生成AIは、拡散モデ

ko-ya-ma 2025/03/28

リンク

MCPサーバーを利用することはセキュリティ的に安全か?

1. はじめに Model Context Protocol (以下、MCP) は、大規模言語モデル (LLM) と外部データソースやツールを連携させるための便利なオープンプロトコルです。一方で、MCPサーバーは誰でも作成してGitHubで公開できるため、場合によっては悪意のあるコードが含まれている可能性も否定できません。自作のMCPサーバーに脆弱性を埋め込んでしまうのは自己責任ですが、実際には、公開されているMCPサーバーをマーケットプレイス経由で使用する場合、どの程度の安全性が期待できるのでしょうか？本稿では、MCPサーバーのマーケットプレイスの現状と、利用する上での注意点について解説します。 1.1. TL;DR 「誰かが何かを保証してくれるわけで、自己責任で使いましょう」というのが前提です。その中でも一定信用して良いと思われるのは、以下の2つです。それ以外は、公式な保証がない状

ko-ya-ma 2025/03/27

リンク

「MCP？聞いたことあるけど使ってない…😅」人向けに初歩から少し踏み込んだ内容まで解説

今回は一気に「MCPなにもわからない」から「MCP完全に理解した」に一気にレベルアップすることを目的に書いています。そのために以下をモリモリに解説していきます。 ModelContextProtocol(MCP)とは？ MCPがあることでできること MCPを実装するライブラリmodelcontextprotocolを使ってチュートリアル実装のためのネゴシエーションや通信プロトコルの説明も踏まえてのチュートリアルです。 CursorへのMCPサーバーの登録方法 MCPがどのように動作してツールが使われるのか？ FunctionCallingとの違い MCPって単語聞きすげてわからないままに嫌になっている人はこれを読むことで解放されてください。 ModelContextProtocol(MCP)とは？まずはイメージを見てもらうとわかりやすいと思います。 (https://modelcon

ko-ya-ma 2025/03/16

リンク

Gemma 3やQwQなどでローカルLLMがそろそろ使い物になってきた - きしだのHatena

GoogleからGemma 3が出たり、AlibabaがQwQを出したりで、27Bや32BでDeepSeek V3の671Bに匹敵すると言っていて、小さいサイズや2bit量子化でも実際結構賢いので、普通の人がもってるPCでもローカルLLMが実用的に使える感じになってきています。 Gemma 3 Gemma 3は単一GPUで動くLLMで最高と言ってます。 https://blog.google/techno logy/developers/gemma-3/ 1B、4B、12B、27Bがあって、最高なのは27Bだけど、今回はLM Studioで12Bの4bit量子化版を使います。 LM Studioはここ。モデルのダウンロード含め、わかりやすいです。 https://lmstudio.ai/ とりあえず知識確認でJavaのバージョン履歴を。だいたいあってる！ JDK13のリリース年だけ違うけど、

ko-ya-ma 2025/03/15

llm
ai

リンク

RAGのウソを検知する新手法（LLM-as-a-Judgeを超えて）

本記事では、RAGの幻覚（ハルシネーション）を検出するための「LettuceDetect」という手法について、ざっくり理解します。株式会社ナレッジセンスは、エンタープライズ企業向けにRAGを提供しているスタートアップです。この記事は何この記事は、RAGのハルシネーションを高速に検出するための「LettuceDetect」の論文[1]について、日本語で簡単にまとめたものです。今回も「そもそもRAGとは？」については、知っている前提で進みます。確認する場合はこちらの記事もご参考下さい。本題ざっくりサマリー LettuceDetectは、RAGの幻覚を検知するための新しい手法です。LettuceDetect を使うことで、最近流行している「LLM-as-a-Judge」より圧倒的に速く、でも、ほぼ同じ性能で、幻覚を検知できます。KR Labsとウィーン工科大学の研究者らによって2025

ko-ya-ma 2025/03/12

llm
ai

リンク

TypeScript 製の AI エージェントフレームワーク Mastra

TypeScript 製の AI エージェントフレームワーク Mastra Mastra は TypeScript 製の AI エージェントフレームワークであり Gatsby の開発チームによって開発されています。Mastra サーバーを実行することで REST API サーバーを介してエージェントとやり取りすることができます。Mastra はAI エージェントを構築するために必要なプリミティブな機能を提供するために設計されています。 Mastra は TypeScript 製の AI エージェントフレームワークであり Gatsby の開発チームによって開発されています。Mastra サーバーを実行することで REST API サーバーを介してエージェントとやり取りできます。Mastra は AI エージェントを構築するために必要なプリミティブな機能を提供するために設計されています。 Ma

ko-ya-ma 2025/03/10

リンク

ソフトバンクのAI開発企業、小規模言語モデルを公開　30億パラメータ以下の3種類　商用利用も可能

ソフトバンクの子会社でAIの研究開発などを手掛けるSB Intuitions（東京都港区）は3月5日、小規模言語モデル（SLM）「Sarashina2.2」シリーズを公開した。パラメータ数5億、10億、30億の事前学習モデルの3種類を公開。いずれもMITライセンスで、商用利用なども可能だ。 Sarashina2.2シリーズは、Webコーパスから抽出した日本語や英語、コードを含む10兆個のトークンで学習を行った。2.2-3Bモデルについては、同社が以前公開したAIモデル「Sarashina2-7B」よりも、日本語能力や数学、コーディング面で長けた性能を持つ。また日本語処理性能においては、中国Alibabaが開発するAIモデル「Qwen」シリーズなど同等のパラメータ数を他社モデルと比較しても、Sarashina2.2はより優れた結果を示したとしている。関連記事 “大は小を兼ねない”生成AI

ko-ya-ma 2025/03/06

リンク

Cline+Claudeでの開発を試してみた感想

2年くらい前からCopilotやCursorによるコーディングサポートを受けた開発は実際に行なっていたのだけど、先週くらいからコーディングエージェントによる開発にも本腰を入れて調査を始めた。以下はその際に雑に調べた情報まとめ。そんでこの土日くらいまで毎日、主にCline+Claude(その他versionや派生系クライアントも含む)を使って色々とコード生成させたりして実験したのでその感想を書く。試してみたこと最初は簡単なpromptを入力してポン出しで生成させるToDoリストとか管理画面みたいなものを作らせてワイワイしてた。だけど何回かやったら流石に飽きてきたので、もう少し規模の大きなタスクに取り掛からせることにした。既存プロジェクトへのテスト追加まず最初に、個人開発してるモンハンnowのTA走者向けのwebサイトが現状テストゼロだったので、これに対してClaude 3.5 so

ko-ya-ma 2025/03/05

リンク

Clineに全部賭ける前に　〜Clineの動作原理を深掘り〜

はじめに AIのコーディングアシスタントとして最近、急速に注目を集めているCline。VSCode上でAIと連携し、コード生成からバグ修正、さらにはターミナル操作まで自動化できるこのツールは、多くのエンジニアの生産性を劇的に向上させています。 mizchiさんの『CLINEに全部賭けろ』という記事では、 AIから引き出せる性能は、自分の能力にそのまま比例する AI自体を管理するパイプライン設計を自分のコアスキルにする必要があるともあるように、エンジニアはClineという強力なツールの最大限を使えるようになっていくべきです。「AIの上手な使い方」が今のエンジニアにとって必須スキルになりつつあるため、単にClineを使うだけでなく、その仕組みを理解することで得られるメリットは数多くあります。例えば、現時点でのClineの得手・不得手を理解することでAIに対して的確に指示ができたり、clin

ko-ya-ma 2025/03/04

リンク

はてなブックマーク

タグ

関連タグで絞り込む (197)

aiに関するko-ya-maのブックマーク (360)

お知らせ

今週のはてなブックマーク数ランキング（2025年4月第2週）

今週のはてなブックマーク数ランキング（2025年4月第1週）

【復旧済】はてなブックマークへの接続ができない・不安定になる障害が発生していました

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス