[B! LLM] l-_-llのブックマーク

DeepSeek-R1の論文読んだ？【勉強になるよ】

本記事は、DeepSeek-R1の論文とDeepSeekMathの論文を読んだ私の理解をもとに記載しています。本論文で使われている技術に関しては、ある程度の知識を持っているので、大きくは外していないとは思いますが、私の主観も入っている部分もありますので、ご了承ください。また、DeepSeek-R1の論文が公開される前に、小型モデルに対して同様の実験（強化学習）をしていたグループがあるようです。そちらのレポートは下記になります。意図せず、DeepSeek-R1-Zeroの再現実験のようなレポートになっていますが、レポートの著者はDeepSeek-R1論文の公開前から実験していると主張しています。こちらも非常に興味深かったため紹介です。本論文の興味深いところ本論文は、大きく分けて3つの構成でできています強化学習による思考能力の強化 LLM（DeepSeek-V3-Base）に対

l-_-ll 2025/01/28

リンク

生成AI/LLMを使ったウェブサイト開発 - laiso

週末にちょっとしたウェブサイトというかリンク集（？）を作った。今回は生成AIツールをフル活用していつもより効率よく作業ができた。生成AIツールについては日々、新しいものがヤバイすごいと宣伝されているけど、実際にどう使っているのかという情報が少ないと感じている。なので具体的な使い方を書いてみることにした。作ったもの開発の概要最終的なアーキテクチャ UI開発に生成AIツールを使う初期デザインの参考元デザインツールの選定と比較 Next.jsの利用 Cursorを活用した開発データ整形にLLMを使うスクレイピング Amazonの商品データ取得 LLMの選定動的なコードと静的なコードの使い分け TypeScriptを使わない範囲を定めた静的サイト生成（SSG）の採用柔軟なデータベース設計まとめ作ったもの『最も重要な「最も重要なマンガ10選」10選』は「最も重要なマン

l-_-ll 2024/10/28

リンク

【令和最新版】令和のWebスクレイピング(クロール)【ベストプラクティス】

こんにちは、株式会社FP16で結構コードを書いている二宮です。最近Webスクレイピングのコードを色々な方法で書いているので、そこで得た知見をここに残しておこうと思います。ほぼ毎日なにかのWebスクレイピングコードを書いています。 Webスクレイピング手段 Webスクレイピングには色々な方法があります。私が最近主に使っているのはこの5つの手段です。 cheerioでHTMLを解析 Playwrightなどで要素指定でデータを取得する APIを見つけて叩く（バックエンドとの通信を再現してデータを取得） LLMでサイト構造を解析してデータを取得する Next.jsからのレスポンスに含まれているデータを解析して取得するこれが令和のWebスクレイピングのベストプラクティスだと思っています。これらの方法を、目標に合わせて使い分けています。使い分け方 CheerioでHTML解析 JavaS

l-_-ll 2024/09/28

リンク

15時間で学べるAI学習決定版。グーグルが提供する無料の機械学習集中講座が大幅刷新され、LLMもカバー | DevelopersIO

15時間で学べるAI学習決定版。グーグルが提供する無料の機械学習集中講座が大幅刷新され、LLMもカバー Googleが提供する無料の機械学習の集中講座はご存知でしょうか? 機械学習に関する幅広いテーマを座学・動画・実験・コーディングといった様々なアプローチで15時間で学べます。しかも無料です。このコンテンツはもともとは2018年に公開されたものであり、多くのエンジニアに活用されました。とはいえ、2017年のTransf ormerの論文、大規模言語モデルの発展、2022年のChatGPTリリースなど、AIは急速に発展し、より広い職種に身近なものになっています。この流れを受けて、入門講座は2024年8月に大幅に刷新されました。 ※冒頭で登場するResearch DirectorのPeter NorvigはAIの世界的な教科書"Artificial Intelligence: A Mode

l-_-ll 2024/09/11

第一歩はブクマすることから

リンク

ソースコードをリポジトリ丸ごとLLMに読んでもらう方法

はじめにソースコードをLLMに読んでもらうとき、単一ファイルだと楽なのですが、GitHubのリポジトリのように複数ファイルから構成されるプロジェクトだと困ってしまいますね。リポジトリごとLLMに読んでもらえるようにいい感じにテキスト化できると良いですね。そんなソフトがありました。しかも2つ。両方ともほとんどコンセプトは同じです。特に後者のgenerate-project-summaryは使い方も含めて、自分のやりたいことが、すでに開発者の清水れみおさんが以下の記事にまとめていました。なので、あんまり書く必要ないのですが、せっかくなのでgpt-repository-loaderの使い方と、出力したファイルの別の活用方法について書いてみたいと思います。 gpt-repository-loaderでリポジトリをテキストに変換使い方はREADMEに書いてあります。シンプルなソフトなので、

l-_-ll 2024/08/31

LLM
git

リンク

最近ローカルLLMがアツいらしい

最近、ローカルLLMがアツくなっているという話をtwitterでチラホラ見かける。ローカルLLMって何じゃ？というと、オープンに公開されているモデルのウエイトをDLしてきて手元のPC上で推論させる事である。オープンなAIモデルとは逆の存在として、モデルがDLできないクローズなAIモデルもある。 OpenAIやAnthropicのような最先端AI企業のクローズなAIモデルに比べて、オープンに公開されているオープンなAIモデルの性能は今でもかなり後れを取っている。だから去年の間はあくまでAIの本命はChatGPTのようなクローズモデルであって、オープンなAIモデルなんて眼中にありませんみたいな風潮が無くはなかった。だが最近は風向きが少々変わってきている。 GPTのAPI高い問題＆ OpenAIがAIベンチャー皆殺しにしてしまう問題まず「結局GPTのAPIを叩いてサービス運営して成功し

l-_-ll 2024/05/21

"Command R+で推論がしたければCohereのAPIが一カ月当たり1000回まで無料で叩けてしまうので、普段使い程度の量ならそれで十分なのではないだろうか。それで足りなければ、Gemini1.5Flashなんて１日1500回も無料で叩けてしまう"

リンク

Chat Vectorを使って日本語LLMをチャットモデルに改造する - Qiita

はじめに Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages という論文では、LLMの学習済み重みパラメータの足し引きによって、事前学習済みモデルに対話能力を与えることができるという結果が示されています。具体的には、英語で事前学習されたモデル（以下ではベースモデルと呼びます）と、ベースモデルを指示チューニング (instruction tuning)してチャット形式の対話ができるようにしたモデル（英語チャットモデル）、ベースモデルを英語以外の言語で継続事前学習したモデルの３つのモデルを用います。英語チャットモデルの重みからベースモデルの重みを引いたものは、チャット形式で対話ができる能力を表したベクトルであり、そのベクトルを

l-_-ll 2024/04/06

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

LLMに関するl-_-llのブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2025年4月第2週）

今週のはてなブックマーク数ランキング（2025年4月第1週）

【復旧済】はてなブックマークへの接続ができない・不安定になる障害が発生していました

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス