並び順

ブックマーク数

期間指定

  • から
  • まで

241 - 274 件 / 274件

新着順 人気順

UTF-8の検索結果241 - 274 件 / 274件

  • How does UTF-8 turn “😂” into “F09F9882”?

    More often than not the mechanism being used to turn bytes into characters and emojis on your computer is "UTF-8". I recently learned how UTF-8 works and felt that the definition lended itself perfectly to creating diagrams explaining the implementation. I created these diagrams for my own enjoyment and wanted to share them. Hopefully this will inspire you to learn how other low-level protocols wo

      How does UTF-8 turn “😂” into “F09F9882”?
    • Unicodeには大文字でも小文字でもないアルファベットがある

      大規模文字セットのUnicodeは世界中のあらゆる文字を収録することを目指しており、個性的な絵文字も数多く登録されているほか、正体不明の記号もいくつか含まれています。さらに、Unicodeに存在する「大文字でも小文字でもないアルファベット」について、ソフトウェアデベロッパーであるレイモンド・チェン氏がMicrosoftの開発者ブログで解説しています。 What has case distinction but is neither uppercase nor lowercase? - The Old New Thing https://devblogs.microsoft.com/oldnewthing/20241031-00/?p=110443 Unicodeにはラテン文字をはじめいろいろな言語の文字が収録されていますが、その中に「大文字」「小文字」とともに別の種類が登録されている文字が

        Unicodeには大文字でも小文字でもないアルファベットがある
      • So Long Surrogates: How we moved to UTF-8 in Haskell

        We released a blazingly fast Aho-Corasick implementation, written in Haskell, in 2019. This implementation was based on UTF-16 strings, since Haskell's text library uses that for its internal string representation. However, the most recent major update of text changed its internal string representation from UTF-16 to UTF-8. This is good news for us, since most of our customer’s data is ASCII, this

        • テキスト広告が文字化け→実は意図的だった? Twitterのプロモーションが話題に【やじうまWatch】

            テキスト広告が文字化け→実は意図的だった? Twitterのプロモーションが話題に【やじうまWatch】
          • 変体仮名を使える「Android 15 Beta 2」が公開 ~「プライベートスペース」なども追加/今秋にも正式リリース

              変体仮名を使える「Android 15 Beta 2」が公開 ~「プライベートスペース」なども追加/今秋にも正式リリース
            • UnicodeとUTF-8と、GoのByte型とrune型についてのまとめ - たのしい駆動開発

              UTF-8,Unicode, Goのbyte, rune関係がよく分からなかったのでいろいろ調べて、自分なりに解釈ができたので、まとめてみようと思います。 まずは定義から行きましょう。 UTF-8: Unicodeで使える8ビット符号単位の文字符号化形式 Unicode: 文字集合(文字セット)が単一の大規模文字セット ようするに、UTF-8は、Unicodeを符号化(エンコード)するやつで、Unicodeはいろんな文字の集合です。 aとか"あ"とか"亜"とか、ほんといろいろな文字の集合。 そして、Unicodeの文字には、識別しやすいように数字が割り振られていて、その数字をコードポイント(Go言語でrune型に割り当てられる)といいます。実際にコードで違いを見てみましょう。 func main() { s := "あいうえお" b := []byte(s) for _, bi := ra

              • Go 1.17からの負のruneの扱い | フューチャー技術ブログ

                こんにちは、TIGの玉木です。Go 1.17連載の4記事目です。 この記事ではGo 1.17で更新があった負のruneの扱いについてです。更新自体は簡単なもので、この記事ではruneの説明から行います。 この記事を書いたきっかけGo 1.17のRelsease Notes1を眺めていたらいくつかの箇所で negative rune valuesという記述があり、runeってなんだ? と気になったことがきっかけです。 runeについてこちらのseihmdさんのQiita記事がとてもわかりやすかったです。詳細はそちらの記事に任せて、この記事では簡単な紹介に留めます。 コンピュータは文字を0と1のビットで表現します。例えば「”あ”, ”い”, “う”, “え”, “お”」の5種類の文字しかなければ、それぞれ「”000”, “001”, “010”, “011”, “100”」のように0と1で文字

                  Go 1.17からの負のruneの扱い | フューチャー技術ブログ
                • ロシアで使われるキリル文字が文字化けした時に使えるフローチャート

                  ロシアで使われるキリル文字はアルファベットの一種ですが、英語で使われるラテン文字とは形が異なるため、ウェブ上では2バイト文字で使われることが多く、そのため文字コードの違いで文字化けが生じてしまうことがよくあります。以下のフローチャートを見れば、キリル文字がどんな感じに文字化けしてしまっているのかを判断することができます。 https://vault.pmpc.ru/vf/16011417/6a7b205721142511253e4d581.png 「кракозябры(ワニ)はどのように見えますか?」という質問からスタートし、どのような文字に変換されるかを確認します。ほとんどの文章が「╬╤╪」のような記号(赤枠)で表示された場合はKOI8-RをCP 866に修正すればOK。 文字と記号が混ざって出現する場合、記号に「п」と「я」の文字が含まれればUTF-8からKOI8-Rに、記号に混ざっ

                    ロシアで使われるキリル文字が文字化けした時に使えるフローチャート
                  • Decoding UTF8 with Parallel Extract

                    Decoding UTF8 with Parallel Extract 23 Mar 2024 As a side-quest I recently decided to write a branchless utf8 decoder utilizing the pext or "parallel extract" instruction. It's compliant with rfc-3629, meaning that it doesn't just naively decode the code-point but also checks for overlong encoding, surrogate pairs and such. Compiled with gcc -O3 -march=x86-64-v3 the entire decoder results in just

                    • MySQL 8.0.24 の文字コードまわり - tmtms のメモ

                      2021/4/20 にリリースされた MySQL 8.0.24 について私が気になったものについて。 まあ文字コードまわりだけなんだけど。 utf8 を utf8mb3 として出力する Client applications and test suite plugins now report utf8mb3 rather than utf8 when writing character set names. (Bug #32164079, Bug #32164125) Important Note: When a utf8mb3 collation was specified in a CREATE TABLE statement, SHOW CREATE TABLE, DEFAULT CHARSET, the values of system variables containing c

                        MySQL 8.0.24 の文字コードまわり - tmtms のメモ
                      • Pythonのchardetモジュールが、"testあ"という文字列(UTF-8)の文字コードを"Windows-1254"だと判定する

                        "testあ"のUTF-8表現は、74 65 73 74 e3 81 82 (1バイトデータの表記は全部16進、以下同様, python3風に書くとb'\x74\x65\x73\x74\xe3\x81\x82')で、chardetが判定するのは「文字列」ではなく、このバイト列です。 ちなみにこのバイト列をUTF-8, Shift_JIS, EUC-JP, ISO-8859-1, Code Page 437, Windows-1254で解釈すると、以下のようになります。 UTF-8 testあ (まぁ、当たり前) Shift_JIS (不正) EUC-JP (不正) ISO-8859-1 testã (81 82 は制御コードにあたるので見えないが不正ではない) CP437 testπüé Win1254 testã‚ (81は未定義なので本来は不正、chardetは未定義にあたるバイトが現

                          Pythonのchardetモジュールが、"testあ"という文字列(UTF-8)の文字コードを"Windows-1254"だと判定する
                        • 【JS体操第3問ヒント②】「コードポイント」と「コードユニット」 - KAYAC Engineers' Blog

                          こんにちは!面白プロデュース事業部のおばらです。 本記事はJS体操第3問「Zalgo Text の生成」の問題のヒントにもなるかもしれないシリーズ第2弾。 第1弾は 「Zalgo Text のできるまで」でした。 今回は「コードポイント」、そして「コードポイント」と似ているけれどちょっと違う概念の「コードユニット」についてざっくりおさらいしてみます。 techblog.kayac.com hubspot.kayac.com 目次 「Unicode」とは 「コードポイント」とは 「文字」を「コードポイント」に変換する 「コードポイント」を「文字」に変換する 「コードユニット」とは 「UTF-8」「UTF-16」「UTF-32」 「コードユニット」とは 「文字」を「コードユニット」に変換する 「コードユニット」を「文字」に変換する 「コードポイント」と「コードユニット」の違い 文字数とは? ま

                            【JS体操第3問ヒント②】「コードポイント」と「コードユニット」 - KAYAC Engineers' Blog
                          • 絵文字を自由に作れるアップルの新機能「ジェン文字」の使い方

                            スマートフォンで絵文字のリストをスクロールしながら、「どうして今欲しい絵文字がないんだ!」と叫びたくなったことはないだろうか?家族に食事の準備ができたことを知らせたいとき、その日のメニューがワッフルなら適切な絵文字が見つかるが、フレンチトーストだった時には残念な気持ちになる。どのOSでも公式の絵文字は追加されており、毎年少しずつ増えているのだが、絵文字が作成されて承認されるまでのプロセスはかなり複雑だ。 しかし、読者がiPhone(またはiPad)を使っており、「Apple Intelligence」を使用できるなら、自分だけのカスタム絵文字である「ジェン文字」を作ることができる。ジェン文字はほとんどどんなものでも絵文字にすることができ、これにはユーザー自身の姿も含まれる。 しかしいざジェン文字を使おうとすると、アート作品を生成する作業に付きものの問題にぶつかる。それは、何でも作れる道具が

                              絵文字を自由に作れるアップルの新機能「ジェン文字」の使い方
                            • 右から左に書かれる文章、前後関係でカタチが変わる文字。『FORSPOKEN』のアラビア語ローカライズで行われた9個の工夫【CEDEC2023】|ゲームメーカーズ

                              国内最大規模のゲーム業界カンファレンス「CEDEC2023」が、2023年8月23日(水)から8月25日(金)までの日程で開催されました。最終日となる8月25日には、スクウェア・エニックス プログラマー 中原 勇氏が登壇し、「FORSPOKENでのアラビア語対応について」と題した講演を行いました。 右から左に書かれる文章や、隣接する文字によっては表示が変わる字形など、数多くの課題に対応する具体的な手法が解説された本講演をレポートします。 TEXT / セレナーデ☆ゆうき EDIT / 神山 大輝

                                右から左に書かれる文章、前後関係でカタチが変わる文字。『FORSPOKEN』のアラビア語ローカライズで行われた9個の工夫【CEDEC2023】|ゲームメーカーズ
                              • Appleのメールアプリで送信するメールをチェックして文字化けを防いでくれるプラグイン「LetterFix」が試験的にmacOS 11 Big Surに対応。

                                Appleのメールアプリで送信するメールをチェックし文字化けを防いでくれるプラグイン「LetterFix」が試験的にmacOS 11 Big Surに対応しています。詳細は以下から。 LetterFixはmacOSのデフォルトのメーラーであるメールアプリ(Mail.app)で作成したメール中のUnicode文字のチェック&必要に応じて文字の置換を行うとともに、日本国内で一般にメールのやり取りに用いられているISO 2022-JPエンコーディングで送信に設定し文字化けを防止してくれるプラグインですが、このLetteFixが2020年秋にリリースされるmacOS 11 Big Surのメールアプリに試験的に対応しています。 /Users/(ユーザ名)/Library/Mail/Bundles/ #プラグインのインストールディレクトリ macOS 11 Big Surに対応しているのはLette

                                  Appleのメールアプリで送信するメールをチェックして文字化けを防いでくれるプラグイン「LetterFix」が試験的にmacOS 11 Big Surに対応。
                                • 【Python】encode・decodeメソッドで、文字列⇔文字コードをかんたん変換!(UTF-8・Shift_JIS)

                                  Python 【Python】encode・decodeメソッドで、文字列⇔文字コードをかんたん変換!(UTF-8・Shift_JIS) Pythonを使っていると、文字コードや文字列の変換が必要になることがありますよね。 でも、文字コードって何?どうやって変換すればいいの?と疑問に思ったことはありませんか? やり方はかんたんです。 「encode」メソッドと「decode」メソッドを使えば、あっという間に文字列と文字コードの変換ができるようになります! UTF-8、ASCII、Shift_JISといった代表的な文字コードの変換プログラムもまじえて解説しています。 実際にプログラムを動かすことで、どのように文字列と文字コードを変換するのか理解が深まると思います。ぜひ実際にコードを入力して動かしてみて下さいね。

                                    【Python】encode・decodeメソッドで、文字列⇔文字コードをかんたん変換!(UTF-8・Shift_JIS)
                                  • UAX #29: Unicode Text Segmentation

                                    Summary This annex describes guidelines for determining default segmentation boundaries between certain significant text elements: grapheme clusters (“user-perceived characters”), words, and sentences. For line boundaries, see [UAX14] . Status This document has been reviewed by Unicode members and other interested parties, and has been approved for publication by the Unicode Consortium. This is a

                                    • 文字コードとは?~UTF-8はパソコンの世界共通語~|データ分析用語を解説 - GiXo Ltd.

                                      本記事は、株式会社ギックスの運営していた分析情報サイト graffe/グラーフ より移設されました(2019/7/1) Unicode、ASCIIコード、Shift-JIS、UTF-8、UTF-16の関係を理解する データ分析を行っていると、必ず出てくる専門用語で「文字コード」がありますが、それぞれの文字コードの概念は、曖昧になってはいませんか? これから説明する内容は、文字コードとは何かを代表的な文字コードの関係性から説明します。 UnicodeとUTF-16は別物 ~符号化文字集合と符号化形式について~ 若い情報処理系の技術者に対して、「代表的な文字コードって何?」と質問した時、返ってくる内容として「ASCIIコード、Shift-JIS、UTF-8、UTF-16、Unicode…」と答えるケースがあります。これは、厳密にいえば正しい答えではありません。 Unicodeは「符号化文字集合

                                        文字コードとは?~UTF-8はパソコンの世界共通語~|データ分析用語を解説 - GiXo Ltd.
                                      • [7zip]日本語版Windowsで圧縮されたzipファイルを文字化けせずに解凍する方法 - Qiita

                                        やりたいこと Windows英語環境を使用している Windows日本語環境で圧縮されたzipファイルを回答すると、日本語ファイル名が文字化けする 文字化けしてしまったファイル名を修復するソフトもあるが、解凍時点で正しく解凍したい 会社支給PCの環境でありなるべく新しくソフトをインストールしたくない 日本同士でもWindowsーMac, Linuxでも同じ現象が起こる様子 Mac, Linuxでの解決方法は情報豊富 また、一部の情報では7zipが自動的にエンコードを判別してくれるとのこと しかし、私のWindows英語環境ではうまく機能せず 他にWindows英語環境でできる方法を探してみたものの、日本語情報がなかったので記事化 環境 Windows10 (英語環境) 7zipコマンドライン版(7-Zip Extra 19.00) 原因 日本語版Windowsでは圧縮時にShift-JIS

                                          [7zip]日本語版Windowsで圧縮されたzipファイルを文字化けせずに解凍する方法 - Qiita
                                        • 【JS体操第3問ヒント①】Zalgo Text のできるまで - KAYAC Engineers' Blog

                                          こんにちは!面白プロデュース事業部のおばらです。 今回は、先日スタートしたJS体操第3問のテーマでもある「Zalgo Text(ザルゴ・テキスト)」の作り方を JavaScript のサンプルコードと併せて簡単にご紹介します。 hubspot.kayac.com 目次 Zalgo とは Zalgo Text とは Zalgo Text を作ってみる 「結合文字」 「ダイアクリティカルマーク」 「Unicode エスケープシーケンス」と「コードポイント」 「A」という文字に「ダイアクリティカルマーク」を加えてみる 「ダイアクリティカルマーク」の数を増やしてみる 「基底文字」も増やしてみる まとめ Zalgo とは まず、Zalgo ってなんでしょう? Zalgo(ザルゴ)とは、Flash アニメータ Dave Kally によって生み出された架空の生物。インターネット上の人々を狂気に陥れ破滅

                                            【JS体操第3問ヒント①】Zalgo Text のできるまで - KAYAC Engineers' Blog
                                          • PowerShell 7のコードページと$OutputEncodingと[Console]::OutputEncodingについて - nislandのブログ

                                            背景 PowerShellをバージョン5から7にアップデートして、文字化け問題に悩まされました。 で、文字化けはとりあえず解消できたからいいものの、結局何が原因だったのかはいまいちよくわからない。 とりあえず検証したことをメモとして残しておこうって感じの記事です。 解決法 とりあえず先に解決法を。以下のコマンドで解決しました。 [Console]::OutputEncoding = [System.Text.Encoding]::GetEncoding('utf-8') これをすれば文字化けが治るはずです。chcp 65001は必要なし。 PowerShell 5までの文字化けと対処法 utf-8で書かれたC++ソースをコンパイルして実行すると、日本語が含まれる標準出力は文字化けしてました。 これは、テキストがutf-8で書かれていたのに対し、コンソール上での文字エンコード方式がShift

                                              PowerShell 7のコードページと$OutputEncodingと[Console]::OutputEncodingについて - nislandのブログ
                                            • 旧CGIプログラム(SJIS)をUTF8へ変更する方法

                                              すでに世の中、シフトJISから、UTF-8型式に文字コード体系が変化しています。 しかし、Perl/CGIのプログラムについては、その多くが「shift_jis」で稼働している状況です。ここで、最低限の移行・修正処理により、UTF-8型式へ移行・変換する対応を整理しました。 FileCode Checkerによる文字コード変換 上記のFileCode Checkerは、フリーソフトです。Win10版を導入しましょう。 フォルダ内ファイルを旧文字コード型式から、全てUTF8型式へ一括変換できます。 変換内容 文字コード:UTF8 改行コード:CRLF 元のファイルを置換(事前にバックアップを作成しておく) 変換手順 変換前のファイルについて、全てバックアップを作成しておきます。 FileCode Checkerのツールを起動 txt、cgi、datなど、旧コードの「shift_jis」で書か

                                                旧CGIプログラム(SJIS)をUTF8へ変更する方法
                                              • C/C++で日本語を扱いたい - Qiita

                                                Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

                                                  C/C++で日本語を扱いたい - Qiita
                                                • <4D6963726F736F667420506F776572506F696E74202D2032303139313131398DA182B382E795B782AF82C882A295B68E9A8352815B836882CC82CD82C882B557656294C52E70707478>

                                                  Copyright (C) 2019 Iwata Corporation. All Rights Reserved. 2019年11月19日 l 水野 昭 今さら聞けない文字コードのはなし 1 Copyright (C) 2019 Iwata Corporation. All Rights Reserved. 本資料は2018年11月29日に東京ビッグサイトで開催された JANPS2018(新聞製作技術展・日本新聞協会主催)の会場内 セミナーで発表した資料をもとにしています。 本資料の無断転載・無断使用を禁止します。 2 Copyright (C) 2019 Iwata Corporation. All Rights Reserved. イワタの歴史 ・1920年(大正9) 岩田百蔵が創業。鉛活字の母型を製造。 ・1939年(昭和14) 大阪龍文堂の森川健市(のちの大阪支店長)が 新聞用扁

                                                  • Branchless UTF-8 Encoding

                                                    Can you encode UTF-8 without branches? Yes. Note: I added a coda section incorporating some feedback. The question In a Recurse chat, Nathan Goldbaum asked: I know how to decode UTF-8 using bitmath and some LUTs (see https://github.com/skeeto/branchless-utf8), but if I want to to go from a codepoint to UTF-8, is there a way to do it without branches? To start with, is there a way to write this C f

                                                      Branchless UTF-8 Encoding
                                                    • Guidelines for Submitting Unicode® Emoji Proposals

                                                      Last Update: 2025-04-02 Currently Accepting Submissions Until 2025-07-31 The goal of this page is to outline the process and requirements for submitting a proposal for new emoji; including how to submit a proposal, the selection factors that need to be addressed in each proposal, and guidelines on presenting evidence of frequency. All submissions are reviewed, and a very small percentage advance f

                                                      • エンジニアHubにて「文字コード再入門─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!」公開 - yanok.net

                                                        「エンジニアHub」にて記事を執筆しました。「文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう!」として公開されています。 若手エンジニア向けのWebメディアとのことで、プログラミング上の注意点にフォーカスした内容になっています。コード例にはJava, Python, Rubyを用いています。 拙著をすでにお読みの方には復習となる内容ですが、まだの方はこの機会に是非お読みいただければと思います。記事の最後に拙著『[改訂新版]プログラマのための文字コード技術入門 (WEB+DB PRESS plusシリーズ)』の版元へのリンクも設定されていますので、興味を持たれた方には書籍の方もお読みいただければ幸いです。 当記事編集担当の方には「とても品質の高い記事」とのことで感謝のお言葉をいただきました。読者のお役に立つことを願っています。

                                                        • [python3] EUC-JPなのにShift-JISの機種依存文字が入っててUTF-8にできなかったときの対策 - Qiita

                                                          表題の通りです。 先人が機種依存文字対策に苦心した痕跡がちらりほらり… ※ はしご高とかそういうタイプの機種依存文字はこの記事では扱いません。 環境 Windows 10 Python 3.8.5 スクレイピング:requests 状況(読まなくても良い) 最近 seesaawiki の記事の自サイトへの移植をごそごそとしているのですが。 seesaawikiからスクレイピングでHTMLソースを取得すると、 <meta http-equiv="Content-Type" content="text/html; charset=EUC-JP"> とあって確かに EUC-JP のはずなのに、wikiソース内で「①」のような Shift-JIS の機種依存文字が使えるせいでたまにこれが紛れてくるんです。 で普通に

                                                            [python3] EUC-JPなのにShift-JISの機種依存文字が入っててUTF-8にできなかったときの対策 - Qiita
                                                          • どんな絵文字をよく使う? | スラド IT

                                                            Unicode Consortium の調べによると、2021 年に最も多く使われた絵文字は 😂 (歓喜の涙を流す顔) だったそうだ (Unicode Consortium の記事、 9to5Mac の記事、 Mac Rumors の記事)。 😂 はもう古いなどとも報じられたが、前回 2019 年の調査時から割合としては大きく減少したものの 2021 年に使われた絵文字の 5 % を占め、2 位の ❤️ (赤いハート) 以外には大きな差をつけているという。 3 位以下は以下の通り。 🤣 笑い転げる顔 👍 サムズアップ 😭 号泣する顔 🙏 合わせた手 😘 投げキスする顔 🥰 ハートに囲まれた笑顔 😍 ハート目の顔 😊 目も笑っている笑顔 トップ 10 中 6 個は 2019 年の調査でも 1 位 ~ 6 位 (😂 ❤️ 😍 🤣 😊 🙏) に入っており、あまり大き

                                                            • QuickAnswer

                                                              動画 動画からアニメWebP生成 動画からアニメPNG生成 APNG 動画からアニメGIF生成 動画サムネイル生成 動画から静止画切り出し アニメーションWebP作成 アニメーションPNG作成 APNG アニメーションGIF作成 画像 画像フォーマット相互変換 Exif情報表示 画像縮小回転 画像リサイズ一括 リアルタイム版 迷路作成 SVG版 迷路作成 Illustrator版 ジグソーパズル作成 Photoshop PSDビューワー ハッチングパターンSVG作成 水玉模様SVG作成 アイコン ファビコン作成 リアルタイム版2 ファビコン作成 リアルタイム版1 ファビコン作成 マルチアイコン作成 マルチアイコン作成 リアルタイム版 ウインドウズアイコン作成 ウインドウズアイコン作成 リアルタイム版 ファビコン一括生成 ファビコン一括生成 リアルタイム版 半透明マルチアイコン、ファビコン作

                                                                QuickAnswer
                                                              • Gitで管理しているソースの改行コードに注意

                                                                改行コード不一致のトラブル チームで開発する時、改行コードを統一しないと、不注意にトラブルが発生する恐れがあります。 スクリプト実施不可 Linuxのシェルの改行コードがLFではないと、実行できません。 逆にWindowsのコマンドスクリプトの改行コードがCRLFではないと、実行出ません。 差分比較不可 ソースを修正してないのに、改行が違う場合、行の差分は出ています。 実際の変更内容は見づらくなります。 ローカル開発時の改行コードのプラクティス Gitクライアントのデフォルト動きの制御 グローバルのコンフィグ(core.autocrlf)をコンフィグする 設定 チェックアウト時 コミット時

                                                                  Gitで管理しているソースの改行コードに注意
                                                                • UTF-8からSJISに変換する時にはShift-JIS系エンコードの種類だけじゃなくてUNICODE正規化も気にしないとダメという話

                                                                  UTF-8からSJISに変換する時にはShift-JIS系エンコードの種類だけじゃなくてUNICODE正規化も気にしないとダメという話 利用シーン UTF-8で記述されたテキストをShift-JISエンコードに変換する機会はあります。 UNICODEで表現できる文字の種類の方がShift-JISに比べて圧倒的に広いのですべての文字が変換できるわけではありませんが、「これは変換できてよかろう」というものまでこぼれ落ちるケースは多数あります。 以下こぼれ落ちる例とその対応を示します。 サンプルコード まずはサンプルコード。 rubyで記述していますが、原理はどの言語でも同じです。 str = "あ~あ①髙島屋パバぱ" sjis = str.encode(Encoding::Shift_JIS, :invalid => :replace, :undef => :replace) File.

                                                                    UTF-8からSJISに変換する時にはShift-JIS系エンコードの種類だけじゃなくてUNICODE正規化も気にしないとダメという話
                                                                  • 仮名合字・合略仮名の文字コード - yanok.net

                                                                    合字とは 合字というものがあります。複数の文字を組み合わせて一文字となったものです。欧文の「Æ」のような文字はどこかで見たことがある人が多いでしょう。いうまでもなくAとEの組み合わせです。ドイツ語の「ß」も「ss」を表す合字です。合字を英語ではligatureといいます。 漢字にも,「麻呂」を組み合わせて一字になった「麿」や,「久米」の「粂」等の合字があります。 仮名文字にも合字があります。今日,通常の文章には用いられませんが,昔のものには見ることができます。こうしたものは仮名合字や合略仮名と呼ばれます。 ここではそれらのうち,現在符号化されているものについて文字コードをまとめてみます。 仮名合字の文字コード 文字読みJIS X 0213UnicodeUnicode文字名Unicodeブロック ゟより1-2-25U+309FHIRAGANA DIGRAPH YORIHiragana ヿコト

                                                                    • 私用領域を使って UTF-8 エンコードされた文字列にバイナリを埋め込む術 - hsjoihs’s diary

                                                                      「ソースコードにアスキーアートや罫線文字使って図を頑張って書いて埋め込むのってめんどいことがあるよね」「どうして人類はプレーンテキストに画像も埋め込めるようにしておかなかったんだろうな」みたいなことを考えていたら、「私用領域を使って UTF-8 エンコードされた文字列にバイナリを埋め込もうとしたらどうなるかな」という発想に至った。ということで考えてみよう。 私用領域とは https://www.unicode.org/versions/Unicode15.0.0/ch23.pdf によれば、私用領域 (private use area) とは Private Use Area: U+E000–U+F8FF The primary Private Use Area consists of code points in the range U+E000 to U+F8FF, for a tot

                                                                        私用領域を使って UTF-8 エンコードされた文字列にバイナリを埋め込む術 - hsjoihs’s diary

                                                                      新着記事