[7ページ] UTF-8の人気記事 274件 - はてなブックマーク

241 - 274 件 / 274件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

UTF-8の検索結果241 - 274 件 / 274件

How does UTF-8 turn “😂” into “F09F9882”?
- 4 users
- sethmlarson.dev
- テクノロジー
- 2022/02/09
More often than not the mechanism being used to turn bytes into characters and emojis on your computer is "UTF-8". I recently learned how UTF-8 works and felt that the definition lended itself perfectly to creating diagrams explaining the implementation. I created these diagrams for my own enjoyment and wanted to share them. Hopefully this will inspire you to learn how other low-level protocols wo
Unicodeには大文字でも小文字でもないアルファベットがある
- 4 users
- gigazine.net
- 暮らし
- 2024/11/11
大規模文字セットのUnicodeは世界中のあらゆる文字を収録することを目指しており、個性的な絵文字も数多く登録されているほか、正体不明の記号もいくつか含まれています。さらに、Unicodeに存在する「大文字でも小文字でもないアルファベット」について、ソフトウェアデベロッパーであるレイモンド・チェン氏がMicrosoftの開発者ブログで解説しています。 What has case distinction but is neither uppercase nor lowercase? - The Old New Thing https://devblogs.microsoft.com/oldnewthing/20241031-00/?p=110443 Unicodeにはラテン文字をはじめいろいろな言語の文字が収録されていますが、その中に「大文字」「小文字」とともに別の種類が登録されている文字が
- gigazine
So Long Surrogates: How we moved to UTF-8 in Haskell
- 4 users
- www.channable.com
- テクノロジー
- 2022/04/28
We released a blazingly fast Aho-Corasick implementation, written in Haskell, in 2019. This implementation was based on UTF-16 strings, since Haskell's text library uses that for its internal string representation. However, the most recent major update of text changed its internal string representation from UTF-16 to UTF-8. This is good news for us, since most of our customer’s data is ASCII, this
- Haskell
- プログラミング
テキスト広告が文字化け→実は意図的だった？ Twitterのプロモーションが話題に【やじうまWatch】
- 4 users
- internet.watch.impress.co.jp
- テクノロジー
- 2020/04/24
変体仮名を使える「Android 15 Beta 2」が公開～「プライベートスペース」なども追加／今秋にも正式リリース
- 4 users
- forest.watch.impress.co.jp
- テクノロジー
- 2024/05/21
- Android
UnicodeとUTF-8と、GoのByte型とrune型についてのまとめ - たのしい駆動開発
- 4 users
- ssabcire.hatenablog.com
- テクノロジー
- 2020/05/21
UTF-8,Unicode, Goのbyte, rune関係がよく分からなかったのでいろいろ調べて、自分なりに解釈ができたので、まとめてみようと思います。まずは定義から行きましょう。 UTF-8: Unicodeで使える8ビット符号単位の文字符号化形式 Unicode: 文字集合（文字セット）が単一の大規模文字セットようするに、UTF-8は、Unicodeを符号化(エンコード)するやつで、Unicodeはいろんな文字の集合です。 aとか"あ"とか"亜"とか、ほんといろいろな文字の集合。そして、Unicodeの文字には、識別しやすいように数字が割り振られていて、その数字をコードポイント(Go言語でrune型に割り当てられる)といいます。実際にコードで違いを見てみましょう。 func main() { s := "あいうえお" b := []byte(s) for _, bi := ra
- プログラミング
- programming
Go 1.17からの負のruneの扱い | フューチャー技術ブログ
- 4 users
- future-architect.github.io
- テクノロジー
- 2021/08/17
こんにちは、TIGの玉木です。Go 1.17連載の4記事目です。この記事ではGo 1.17で更新があった負のruneの扱いについてです。更新自体は簡単なもので、この記事ではruneの説明から行います。この記事を書いたきっかけGo 1.17のRelsease Notes1を眺めていたらいくつかの箇所で negative rune valuesという記述があり、runeってなんだ？と気になったことがきっかけです。 runeについてこちらのseihmdさんのQiita記事がとてもわかりやすかったです。詳細はそちらの記事に任せて、この記事では簡単な紹介に留めます。コンピュータは文字を0と1のビットで表現します。例えば「”あ”, ”い”, “う”, “え”, “お”」の5種類の文字しかなければ、それぞれ「”000”, “001”, “010”, “011”, “100”」のように0と1で文字
ロシアで使われるキリル文字が文字化けした時に使えるフローチャート
- 4 users
- gigazine.net
- 政治と経済
- 2021/11/08
ロシアで使われるキリル文字はアルファベットの一種ですが、英語で使われるラテン文字とは形が異なるため、ウェブ上では2バイト文字で使われることが多く、そのため文字コードの違いで文字化けが生じてしまうことがよくあります。以下のフローチャートを見れば、キリル文字がどんな感じに文字化けしてしまっているのかを判断することができます。 https://vault.pmpc.ru/vf/16011417/6a7b205721142511253e4d581.png 「кракозябры(ワニ)はどのように見えますか？」という質問からスタートし、どのような文字に変換されるかを確認します。ほとんどの文章が「╬╤╪」のような記号(赤枠)で表示された場合はKOI8-RをCP 866に修正すればOK。文字と記号が混ざって出現する場合、記号に「п」と「я」の文字が含まれればUTF-8からKOI8-Rに、記号に混ざっ
- ロシア
Decoding UTF8 with Parallel Extract
- 3 users
- nrk.neocities.org
- テクノロジー
- 2024/05/06
Decoding UTF8 with Parallel Extract 23 Mar 2024 As a side-quest I recently decided to write a branchless utf8 decoder utilizing the pext or "parallel extract" instruction. It's compliant with rfc-3629, meaning that it doesn't just naively decode the code-point but also checks for overlong encoding, surrogate pairs and such. Compiled with gcc -O3 -march=x86-64-v3 the entire decoder results in just
MySQL 8.0.24 の文字コードまわり - tmtms のメモ
- 3 users
- blog.tmtms.net
- テクノロジー
- 2021/05/23
2021/4/20 にリリースされた MySQL 8.0.24 について私が気になったものについて。まあ文字コードまわりだけなんだけど。 utf8 を utf8mb3 として出力する Client applications and test suite plugins now report utf8mb3 rather than utf8 when writing character set names. (Bug #32164079, Bug #32164125) Important Note: When a utf8mb3 collation was specified in a CREATE TABLE statement, SHOW CREATE TABLE, DEFAULT CHARSET, the values of system variables containing c
- mysql
- メモ
Pythonのchardetモジュールが、"testあ"という文字列（UTF-8）の文字コードを"Windows-1254"だと判定する
- 3 users
- ja.stackoverflow.com
- テクノロジー
- 2020/08/18
"testあ"のUTF-8表現は、74 65 73 74 e3 81 82 (1バイトデータの表記は全部16進、以下同様, python3風に書くとb'\x74\x65\x73\x74\xe3\x81\x82')で、chardetが判定するのは「文字列」ではなく、このバイト列です。ちなみにこのバイト列をUTF-8, Shift_JIS, EUC-JP, ISO-8859-1, Code Page 437, Windows-1254で解釈すると、以下のようになります。 UTF-8 testあ (まぁ、当たり前) Shift_JIS (不正) EUC-JP (不正) ISO-8859-1 testã (81 82 は制御コードにあたるので見えないが不正ではない) CP437 testπüé Win1254 testã‚ (81は未定義なので本来は不正、chardetは未定義にあたるバイトが現
- Python
- statistics
【JS体操第3問ヒント②】「コードポイント」と「コードユニット」 - KAYAC Engineers' Blog
- 3 users
- techblog.kayac.com
- テクノロジー
- 2024/07/23
こんにちは！面白プロデュース事業部のおばらです。本記事はJS体操第3問「Zalgo Text の生成」の問題のヒントにもなるかもしれないシリーズ第2弾。第1弾は「Zalgo Text のできるまで」でした。今回は「コードポイント」、そして「コードポイント」と似ているけれどちょっと違う概念の「コードユニット」についてざっくりおさらいしてみます。 techblog.kayac.com hubspot.kayac.com 目次「Unicode」とは「コードポイント」とは「文字」を「コードポイント」に変換する「コードポイント」を「文字」に変換する「コードユニット」とは「UTF-8」「UTF-16」「UTF-32」「コードユニット」とは「文字」を「コードユニット」に変換する「コードユニット」を「文字」に変換する「コードポイント」と「コードユニット」の違い文字数とは？ま
- 文字コード
- javascript
絵文字を自由に作れるアップルの新機能「ジェン文字」の使い方
- 3 users
- japan.cnet.com
- テクノロジー
- 2025/01/05
スマートフォンで絵文字のリストをスクロールしながら、「どうして今欲しい絵文字がないんだ！」と叫びたくなったことはないだろうか？家族に食事の準備ができたことを知らせたいとき、その日のメニューがワッフルなら適切な絵文字が見つかるが、フレンチトーストだった時には残念な気持ちになる。どのOSでも公式の絵文字は追加されており、毎年少しずつ増えているのだが、絵文字が作成されて承認されるまでのプロセスはかなり複雑だ。しかし、読者がiPhone（またはiPad）を使っており、「Apple Intelligence」を使用できるなら、自分だけのカスタム絵文字である「ジェン文字」を作ることができる。ジェン文字はほとんどどんなものでも絵文字にすることができ、これにはユーザー自身の姿も含まれる。しかしいざジェン文字を使おうとすると、アート作品を生成する作業に付きものの問題にぶつかる。それは、何でも作れる道具が
- apple
- iPhone
右から左に書かれる文章、前後関係でカタチが変わる文字。『FORSPOKEN』のアラビア語ローカライズで行われた9個の工夫【CEDEC2023】｜ゲームメーカーズ
- 3 users
- gamemakers.jp
- アニメとゲーム
- 2023/08/31
国内最大規模のゲーム業界カンファレンス「CEDEC2023」が、2023年8月23日（水）から8月25日（金）までの日程で開催されました。最終日となる8月25日には、スクウェア・エニックスプログラマー中原勇氏が登壇し、「FORSPOKENでのアラビア語対応について」と題した講演を行いました。右から左に書かれる文章や、隣接する文字によっては表示が変わる字形など、数多くの課題に対応する具体的な手法が解説された本講演をレポートします。 TEXT / セレナーデ☆ゆうき EDIT / 神山大輝
Appleのメールアプリで送信するメールをチェックして文字化けを防いでくれるプラグイン「LetterFix」が試験的にmacOS 11 Big Surに対応。
- 3 users
- applech2.com
- テクノロジー
- 2020/08/29
Appleのメールアプリで送信するメールをチェックし文字化けを防いでくれるプラグイン「LetterFix」が試験的にmacOS 11 Big Surに対応しています。詳細は以下から。 LetterFixはmacOSのデフォルトのメーラーであるメールアプリ(Mail.app)で作成したメール中のUnicode文字のチェック＆必要に応じて文字の置換を行うとともに、日本国内で一般にメールのやり取りに用いられているISO 2022-JPエンコーディングで送信に設定し文字化けを防止してくれるプラグインですが、このLetteFixが2020年秋にリリースされるmacOS 11 Big Surのメールアプリに試験的に対応しています。 /Users/(ユーザ名)/Library/Mail/Bundles/ #プラグインのインストールディレクトリ macOS 11 Big Surに対応しているのはLette
- Mac
【Python】encode・decodeメソッドで、文字列⇔文字コードをかんたん変換！（UTF-8・Shift_JIS）
- 3 users
- grapebanana.com
- テクノロジー
- 2021/11/21
Python 【Python】encode・decodeメソッドで、文字列⇔文字コードをかんたん変換！（UTF-8・Shift_JIS） Pythonを使っていると、文字コードや文字列の変換が必要になることがありますよね。でも、文字コードって何？どうやって変換すればいいの？と疑問に思ったことはありませんか？やり方はかんたんです。「encode」メソッドと「decode」メソッドを使えば、あっという間に文字列と文字コードの変換ができるようになります！ UTF-8、ASCII、Shift_JISといった代表的な文字コードの変換プログラムもまじえて解説しています。実際にプログラムを動かすことで、どのように文字列と文字コードを変換するのか理解が深まると思います。ぜひ実際にコードを入力して動かしてみて下さいね。
- python
UAX #29: Unicode Text Segmentation
- 3 users
- unicode.org
- テクノロジー
- 2021/01/26
Summary This annex describes guidelines for determining default segmentation boundaries between certain significant text elements: grapheme clusters (“user-perceived characters”), words, and sentences. For line boundaries, see [UAX14] . Status This document has been reviewed by Unicode members and other interested parties, and has been approved for publication by the Unicode Consortium. This is a
文字コードとは？~UTF-8はパソコンの世界共通語~｜データ分析用語を解説 - GiXo Ltd.
- 3 users
- www.gixo.jp
- テクノロジー
- 2020/05/17
本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフより移設されました（2019/7/1） Unicode、ASCIIコード、Shift-JIS、UTF-8、UTF-16の関係を理解するデータ分析を行っていると、必ず出てくる専門用語で「文字コード」がありますが、それぞれの文字コードの概念は、曖昧になってはいませんか？これから説明する内容は、文字コードとは何かを代表的な文字コードの関係性から説明します。 UnicodeとUTF-16は別物～符号化文字集合と符号化形式について～若い情報処理系の技術者に対して、「代表的な文字コードって何？」と質問した時、返ってくる内容として「ASCIIコード、Shift-JIS、UTF-8、UTF-16、Unicode…」と答えるケースがあります。これは、厳密にいえば正しい答えではありません。 Unicodeは「符号化文字集合
- 文字コード
[7zip]日本語版Windowsで圧縮されたzipファイルを文字化けせずに解凍する方法 - Qiita
- 3 users
- qiita.com/DaikichiDaze
- テクノロジー
- 2021/04/23
やりたいこと Windows英語環境を使用している Windows日本語環境で圧縮されたzipファイルを回答すると、日本語ファイル名が文字化けする文字化けしてしまったファイル名を修復するソフトもあるが、解凍時点で正しく解凍したい会社支給PCの環境でありなるべく新しくソフトをインストールしたくない日本同士でもWindowsーMac, Linuxでも同じ現象が起こる様子 Mac, Linuxでの解決方法は情報豊富また、一部の情報では7zipが自動的にエンコードを判別してくれるとのことしかし、私のWindows英語環境ではうまく機能せず他にWindows英語環境でできる方法を探してみたものの、日本語情報がなかったので記事化環境 Windows10 (英語環境) 7zipコマンドライン版(7-Zip Extra 19.00) 原因日本語版Windowsでは圧縮時にShift-JIS
- ソフトウェア
- Windows
【JS体操第3問ヒント①】Zalgo Text のできるまで - KAYAC Engineers' Blog
- 3 users
- techblog.kayac.com
- テクノロジー
- 2024/07/18
こんにちは！面白プロデュース事業部のおばらです。今回は、先日スタートしたJS体操第3問のテーマでもある「Zalgo Text（ザルゴ・テキスト）」の作り方を JavaScript のサンプルコードと併せて簡単にご紹介します。 hubspot.kayac.com 目次 Zalgo とは Zalgo Text とは Zalgo Text を作ってみる「結合文字」「ダイアクリティカルマーク」「Unicode エスケープシーケンス」と「コードポイント」「A」という文字に「ダイアクリティカルマーク」を加えてみる「ダイアクリティカルマーク」の数を増やしてみる「基底文字」も増やしてみるまとめ Zalgo とはまず、Zalgo ってなんでしょう？ Zalgo（ザルゴ）とは、Flash アニメータ Dave Kally によって生み出された架空の生物。インターネット上の人々を狂気に陥れ破滅
- javascript
PowerShell 7のコードページと$OutputEncodingと[Console]::OutputEncodingについて - nislandのブログ
- 3 users
- nisland.hatenablog.com
- テクノロジー
- 2022/12/02
背景 PowerShellをバージョン5から7にアップデートして、文字化け問題に悩まされました。で、文字化けはとりあえず解消できたからいいものの、結局何が原因だったのかはいまいちよくわからない。とりあえず検証したことをメモとして残しておこうって感じの記事です。解決法とりあえず先に解決法を。以下のコマンドで解決しました。 [Console]::OutputEncoding = [System.Text.Encoding]::GetEncoding('utf-8') これをすれば文字化けが治るはずです。chcp 65001は必要なし。 PowerShell 5までの文字化けと対処法 utf-8で書かれたC++ソースをコンパイルして実行すると、日本語が含まれる標準出力は文字化けしてました。これは、テキストがutf-8で書かれていたのに対し、コンソール上での文字エンコード方式がShift
- 日本語
- DEV
旧CGIプログラム（SJIS）をUTF8へ変更する方法
- 3 users
- kuruma.rdy.jp
- 世の中
- 2022/08/19
すでに世の中、シフトJISから、UTF-8型式に文字コード体系が変化しています。しかし、Perl/CGIのプログラムについては、その多くが「shift_jis」で稼働している状況です。ここで、最低限の移行・修正処理により、UTF-8型式へ移行・変換する対応を整理しました。 FileCode Checkerによる文字コード変換上記のFileCode Checkerは、フリーソフトです。Win10版を導入しましょう。フォルダ内ファイルを旧文字コード型式から、全てUTF8型式へ一括変換できます。変換内容文字コード：UTF8 改行コード：CRLF 元のファイルを置換（事前にバックアップを作成しておく）変換手順変換前のファイルについて、全てバックアップを作成しておきます。 FileCode Checkerのツールを起動 txt、cgi、datなど、旧コードの「shift_jis」で書か
C/C++で日本語を扱いたい - Qiita
- 3 users
- qiita.com/Kogia_sima
- テクノロジー
- 2020/10/26
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?
- C++
- プログラミング
<4D6963726F736F667420506F776572506F696E74202D2032303139313131398DA182B382E795B782AF82C882A295B68E9A8352815B836882CC82CD82C882B557656294C52E70707478>
- 3 users
- www.iwatafont.co.jp
- テクノロジー
- 2021/07/14
Copyright (C) 2019 Iwata Corporation. All Rights Reserved. 2019年11月19日 l 水野昭今さら聞けない文字コードのはなし 1 Copyright (C) 2019 Iwata Corporation. All Rights Reserved. 本資料は2018年11月29日に東京ビッグサイトで開催された JANPS2018（新聞製作技術展・日本新聞協会主催）の会場内セミナーで発表した資料をもとにしています。本資料の無断転載・無断使用を禁止します。 2 Copyright (C) 2019 Iwata Corporation. All Rights Reserved. イワタの歴史・1920年（大正9）岩田百蔵が創業。鉛活字の母型を製造。・1939年（昭和14）大阪龍文堂の森川健市（のちの大阪支店長）が新聞用扁
Branchless UTF-8 Encoding
- 3 users
- cceckman.com
- テクノロジー
- 2025/01/16
Can you encode UTF-8 without branches? Yes. Note: I added a coda section incorporating some feedback. The question In a Recurse chat, Nathan Goldbaum asked: I know how to decode UTF-8 using bitmath and some LUTs (see https://github.com/skeeto/branchless-utf8), but if I want to to go from a codepoint to UTF-8, is there a way to do it without branches? To start with, is there a way to write this C f
- Rust
Guidelines for Submitting Unicode® Emoji Proposals
- 3 users
- www.unicode.org
- テクノロジー
- 2023/02/10
Last Update: 2025-04-02 Currently Accepting Submissions Until 2025-07-31 The goal of this page is to outline the process and requirements for submitting a proposal for new emoji; including how to submit a proposal, the selection factors that need to be addressed in each proposal, and guidelines on presenting evidence of frequency. All submissions are reviewed, and a very small percentage advance f
- Language
- Culture
エンジニアHubにて「文字コード再入門─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう！」公開 - yanok.net
- 3 users
- yanok.net
- テクノロジー
- 2020/04/29
「エンジニアHub」にて記事を執筆しました。「文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう！」として公開されています。若手エンジニア向けのWebメディアとのことで、プログラミング上の注意点にフォーカスした内容になっています。コード例にはJava, Python, Rubyを用いています。拙著をすでにお読みの方には復習となる内容ですが、まだの方はこの機会に是非お読みいただければと思います。記事の最後に拙著『[改訂新版]プログラマのための文字コード技術入門 (WEB+DB PRESS plusシリーズ)』の版元へのリンクも設定されていますので、興味を持たれた方には書籍の方もお読みいただければ幸いです。当記事編集担当の方には「とても品質の高い記事」とのことで感謝のお言葉をいただきました。読者のお役に立つことを願っています。
[python3] EUC-JPなのにShift-JISの機種依存文字が入っててUTF-8にできなかったときの対策 - Qiita
- 3 users
- qiita.com/manjuu_eater
- テクノロジー
- 2021/05/12
表題の通りです。先人が機種依存文字対策に苦心した痕跡がちらりほらり… ※ はしご高とかそういうタイプの機種依存文字はこの記事では扱いません。環境 Windows 10 Python 3.8.5 スクレイピング：requests 状況（読まなくても良い）最近 seesaawiki の記事の自サイトへの移植をごそごそとしているのですが。 seesaawikiからスクレイピングでHTMLソースを取得すると、 <meta http-equiv="Content-Type" content="text/html; charset=EUC-JP"> とあって確かに EUC-JP のはずなのに、wikiソース内で「①」のような Shift-JIS の機種依存文字が使えるせいでたまにこれが紛れてくるんです。で普通に
- python
どんな絵文字をよく使う？ | スラド IT
- 3 users
- it.srad.jp
- テクノロジー
- 2021/12/04
Unicode Consortium の調べによると、2021 年に最も多く使われた絵文字は 😂 (歓喜の涙を流す顔) だったそうだ (Unicode Consortium の記事、 9to5Mac の記事、 Mac Rumors の記事)。 😂 はもう古いなどとも報じられたが、前回 2019 年の調査時から割合としては大きく減少したものの 2021 年に使われた絵文字の 5 % を占め、2 位の ❤️ (赤いハート) 以外には大きな差をつけているという。 3 位以下は以下の通り。 🤣 笑い転げる顔 👍 サムズアップ 😭 号泣する顔 🙏 合わせた手 😘 投げキスする顔 🥰 ハートに囲まれた笑顔 😍 ハート目の顔 😊 目も笑っている笑顔トップ 10 中 6 個は 2019 年の調査でも 1 位～ 6 位 (😂 ❤️ 😍 🤣 😊 🙏) に入っており、あまり大き
- 統計
QuickAnswer
- 3 users
- ao-system.net
- テクノロジー
- 2022/11/20
動画動画からアニメWebP生成動画からアニメPNG生成 APNG 動画からアニメGIF生成動画サムネイル生成動画から静止画切り出しアニメーションWebP作成アニメーションPNG作成 APNG アニメーションGIF作成画像画像フォーマット相互変換 Exif情報表示画像縮小回転画像リサイズ一括リアルタイム版迷路作成 SVG版迷路作成 Illustrator版ジグソーパズル作成 Photoshop PSDビューワーハッチングパターンSVG作成水玉模様SVG作成アイコンファビコン作成リアルタイム版2 ファビコン作成リアルタイム版1 ファビコン作成マルチアイコン作成マルチアイコン作成リアルタイム版ウインドウズアイコン作成ウインドウズアイコン作成リアルタイム版ファビコン一括生成ファビコン一括生成リアルタイム版半透明マルチアイコン、ファビコン作
- Windows
Gitで管理しているソースの改行コードに注意
- 3 users
- zenn.dev/gekal
- テクノロジー
- 2022/10/30
改行コード不一致のトラブルチームで開発する時、改行コードを統一しないと、不注意にトラブルが発生する恐れがあります。スクリプト実施不可 Linuxのシェルの改行コードがLFではないと、実行できません。逆にWindowsのコマンドスクリプトの改行コードがCRLFではないと、実行出ません。差分比較不可ソースを修正してないのに、改行が違う場合、行の差分は出ています。実際の変更内容は見づらくなります。ローカル開発時の改行コードのプラクティス Gitクライアントのデフォルト動きの制御グローバルのコンフィグ(core.autocrlf)をコンフィグする設定チェックアウト時コミット時
UTF-8からSJISに変換する時にはShift-JIS系エンコードの種類だけじゃなくてUNICODE正規化も気にしないとダメという話
- 3 users
- rooter.jp
- テクノロジー
- 2021/11/26
UTF-8からSJISに変換する時にはShift-JIS系エンコードの種類だけじゃなくてUNICODE正規化も気にしないとダメという話利用シーン UTF-8で記述されたテキストをShift-JISエンコードに変換する機会はあります。 UNICODEで表現できる文字の種類の方がShift-JISに比べて圧倒的に広いのですべての文字が変換できるわけではありませんが、「これは変換できてよかろう」というものまでこぼれ落ちるケースは多数あります。以下こぼれ落ちる例とその対応を示します。サンプルコードまずはサンプルコード。 rubyで記述していますが、原理はどの言語でも同じです。 str = "あ～あ①髙島屋パバぱ" sjis = str.encode(Encoding::Shift_JIS, :invalid => :replace, :undef => :replace) File.
- sjis
- utf8
- 文字列
- ruby
- rails
- 技術
仮名合字・合略仮名の文字コード - yanok.net
- 3 users
- yanok.net
- 世の中
- 2021/02/15
合字とは合字というものがあります。複数の文字を組み合わせて一文字となったものです。欧文の「Æ」のような文字はどこかで見たことがある人が多いでしょう。いうまでもなくAとEの組み合わせです。ドイツ語の「ß」も「ss」を表す合字です。合字を英語ではligatureといいます。漢字にも，「麻呂」を組み合わせて一字になった「麿」や，「久米」の「粂」等の合字があります。仮名文字にも合字があります。今日，通常の文章には用いられませんが，昔のものには見ることができます。こうしたものは仮名合字や合略仮名と呼ばれます。ここではそれらのうち，現在符号化されているものについて文字コードをまとめてみます。仮名合字の文字コード文字読みJIS X 0213UnicodeUnicode文字名Unicodeブロックゟより1-2-25U+309FHIRAGANA DIGRAPH YORIHiragana ヿコト
- 文字コード
- article
私用領域を使って UTF-8 エンコードされた文字列にバイナリを埋め込む術 - hsjoihs’s diary
- 3 users
- hsjoihs.hatenablog.com
- テクノロジー
- 2023/01/14
「ソースコードにアスキーアートや罫線文字使って図を頑張って書いて埋め込むのってめんどいことがあるよね」「どうして人類はプレーンテキストに画像も埋め込めるようにしておかなかったんだろうな」みたいなことを考えていたら、「私用領域を使って UTF-8 エンコードされた文字列にバイナリを埋め込もうとしたらどうなるかな」という発想に至った。ということで考えてみよう。私用領域とは https://www.unicode.org/versions/Unicode15.0.0/ch23.pdf によれば、私用領域 (private use area) とは Private Use Area: U+E000–U+F8FF The primary Private Use Area consists of code points in the range U+E000 to U+F8FF, for a tot
- 文字コード
- 技術