[B! Unicode] morobitokozouのブックマーク

morobitokozou id:morobitokozou

Unicodeに関するmorobitokozouのブックマーク (41)

NFD→NFC変換ツール
※濁点や半濁点が別(U+3099,U+309A)の合成文字を単体の文字に変換するツール。詳しくはこちらを参照。【変換したいテキスト】【変換後のテキスト】
morobitokozou 2022/11/02
Unicode

正規化

NFD

NFC

変換
リンク
Unicode文字ツール
Unicodeに収録されている文字について、各種エンコーディング(文字コード)でのデータ並び(バイトシーケンス)を調べることができます。調べ方は、3通りの中から選べます。データ並びは、すべて%xx形式(URLエンコード、パーセントエンコーディングともいう)で表示します。併せて、JIS漢字コード、区点コード(面区点番号)、JIS漢字水準も調べられます。目次文字列を入力して調べる文字番号を入力して調べる１文字入力して調べるその他詳しい説明文字列を入力して調べる文字列(最大200文字)を入力して、URLエンコード、もしくはユニバーサル文字名またはHTML数値文字参照へのエンコードを行います。異体字セレクタ(IVS)等のUnicode制御文字も文字数としてカウントされます。 ↓(1)エンコードしたい文字列を入力する。(例:北欧) ↓(2)エンコードの種類を選択する。 URL
morobitokozou 2020/09/28
.助かった

Unicode

文字コード

ユニコード

文字

記号

調べる
リンク
Hideyuki Tanaka on Twitter: "文字コードがUTF8になっただけでは一切対応が進まなかったアメリカ人の書くコードの多倍長文字対応が、絵文字が入った途端に全てのソフトが完璧に多倍長文字に対応されるようになったんで、なんだかんだでアメリカ人に多倍長文字を使う強力なモ… https://t.co/JTxQUjo8vY"
文字コードがUTF8になっただけでは一切対応が進まなかったアメリカ人の書くコードの多倍長文字対応が、絵文字が入った途端に全てのソフトが完璧に多倍長文字に対応されるようになったんで、なんだかんだでアメリカ人に多倍長文字を使う強力なモ… https://t.co/JTxQUjo8vY
morobitokozou 2020/07/26
絵文字

Unicode

文字

開発
リンク
文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう！｜ハイクラス転職・求人情報サイト AMBI（アンビ）
文字コード再入門 ─ Unicodeでのサロゲートペア、結合文字、正規化、書記素クラスタを理解しよう！文字コードには、どのような種類があり、それぞれどのような意味を持つのか、といった、文字コードの基本的な概念、従来の文字コードを紹介し、現在のUnicodeの構成を概説し、プログラミングにおいて注意すべき箇所をいくつか取り上げます。ソフトウェア開発に携わる方の多くは、何らかの形で文字コードに触れることがあるでしょう。文字や記号をコンピュータ上でデータとして扱うには、文字コードの知識が必要不可欠です。本稿では、書籍『プログラマのための文字コード技術入門』の著者である矢野啓介さんが、知っておきたい基礎知識を分かりやすく解説します。文字コードとは？ Unicode以前の文字コード Unicodeとその主な符号化形式 UTF-16 UTF-32 UTF-8 Webで文字コードを指定する仕組み
morobitokozou 2020/04/28
文字コード

Unicode
リンク
外字を使うのはやめてくれ！ Unicodeへの移行を呼びかけるMicrosoftの公式ブログ記事が話題に／今や「メモ帳」でさえテキストファイルをUnicodeで保存する時代！ Shift_JISはやめよう【やじうまの杜】
morobitokozou 2020/03/04
文字コード

Unicode

外字
リンク
僕は、なぜ絵文字の長さが、直感に反するのか理解したい...!! - Qiita
対象者 UnicodeやUTF-16について、よくわかってない人 -> ここから "😀".split("")で文字化けする理由がわからない人 -> ここから [..."👨‍👩‍👧"].lengthが5になる理由がわからない人 -> ここから文字コードについてもう一度文字コードは以下の二つで構成されています符号化文字集合: 文字と、その文字の位置を示す一意の番号の集合文字符号化方式: 文字に振られた番号をバイト表現にエンコードする方法符号化文字集合符号化文字集合は、文字その文字の位置を示す一意の番号この二つの組み合わせの集合のことを指します。例えばASCIIでは 8bit(128通り) でラテン文字や英数字を表現しています。しかしASCIIには日本語などの非英語圏の文字が収録されていません。そのため、日本語を収録したShift-JISやアジア圏の文字を収録した
morobitokozou 2019/12/14
文字コード

Unicode

絵文字
リンク
ㇹ゚ン゚'ㇳ̃ヴ゙ニ゙コ゚ヮヰ文̂字̠コ゚−ト゚ノ゙ㇵナ゚ㇱ(現在に至るまでの文字コードの軌跡と簡単な使い方について) - へっぽこびんぼう野郎のnewbie日記
はじめに社内の勉強会で発表した文字コードの話の焼き直しです。ところどころ適当なので話半分に読んでもらえると助かります。これ以上闇の深さを知りたくないと思って、深淵に辿り着く前に文字コードの勉強を打ち切っています。文字コードの専門家でもないので雑です。調査が甘いので間違ってることも多々あるかもしれません。その場合はコメントください。修正します。自信のないところは「らしい」とか「ようです」などのように伝聞調で書いています。あらかじめご了承ください。また、前提知識として2進数と16進数の基礎的な知識を要求しています。 16進数の表現には特に断りがないかぎり 0xFFFF のような表現を使います。 2進数を使う場合には必ず断り書きを入れます。それ以外は10進数です。本筋には関係のない、重要ではない情報は脚注にあります。気になったところだけご覧ください。アジェンダ今回の話に関係ある用
morobitokozou 2018/12/23
文字コード

Unicode
リンク
C++標準化委員会、ついに文字とは何かを理解する: char8_t - Qiita
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? C++ Advent Calendar 2018 この記事はC++ Advent Calendar 2018 15日目の記事です。 14日目: VTKライブラリ 16日目: C++のエラー処理との付き合い方当初見積もりよりも大幅に長い記事となり、投稿したのは12/22で1週間遅刻です。すみません。お知らせ cpprefjpにchar8_t型追加について解説を書きました。ぎゅぎゅっとコンパクトに、また査読を受けて中立的な表現で書いていますので、よければどうぞ。 UTF-8エンコーディングされた文字の型としてchar8_tを追加 - c
morobitokozou 2018/12/23
文字コード

Unicode
リンク
【山田祥平のRe:config.sys】さよならシフトJIS、主なしとて春な忘れそ - PC Watch
morobitokozou 2018/12/15
Unicode

文字コード

Shift_JIS
リンク
警告マーク絵文字
⚠ 警告絵文字（warning emoji）英語では warning という名称です。本サイトでは日本語の意味は警告といたします。この絵文字は、スマホ、パソコン、SNSの各社とも、黄色の三角に!(感嘆符)が描かれたデザインです。パソコンのマニュアルやWebサイトなどで、警告を意味する記号として見かけます。 ⚠ 警告絵文字は 2003年に Unicode 4.0 で追加されました。以下の環境とそれ以降で利用が可能です。 ✅ Windows 11 ✅ Windows 10 version 1507 ✅ Windows 8.1 ✅ Mac OS X Lion 10.7 ✅ iOS 6.0 (5.1, 4.0も一部対応) ✅ Android 4.4 ✅ パソコン版 X（旧Twitter） ✅ パソコン版 Facebook 以下の一覧のテキスト部分をコピーすれば、XやFacebook
morobitokozou 2018/11/03
絵文字

警告マーク

Unicode

アイコン
リンク
くいなちゃん on Twitter: "「『彁』の漢字は、何と読むか分かりますか？」と問題を出されたのですが、調べたところ、これは「幽霊文字」と呼ばれ、実際には存在しない漢字がUnicodeに入ってしまったものだそうですね。使われ方としては、「幽霊文字とは『彁』など… https://t.co/E7o5gQgme0"
「『彁』の漢字は、何と読むか分かりますか？」と問題を出されたのですが、調べたところ、これは「幽霊文字」と呼ばれ、実際には存在しない漢字がUnicodeに入ってしまったものだそうですね。使われ方としては、「幽霊文字とは『彁』など… https://t.co/E7o5gQgme0
morobitokozou 2018/05/28
“幽霊文字”

文字

Unicode
リンク
ゼロ幅文字にエンコードした隠し情報で、文書をリークしたメンバーを特定 | 秋元@サイボウズラボ・プログラマー・ブログ
とある会員制掲示板からの文書の流出に困った運営者が、ユニコードの見えない文字「ゼロ幅文字(Zero-Width characters)」を使って流出させたユーザーを特定した、という話が出ていました。数年前の話、Tom　さんが所属していた競技ビデオゲームのチームでは、ログインが必要なプライベートの掲示板を使って連絡していました。その掲示板に書かれた秘密情報や戦術に関する重大アナウンスなどがしばしば掲示板外のウェブにコピペされ、チームにとって大きな問題となっていたそうです。外部ユーザーの攻撃で中身が漏れたというよりは、メンバーの誰かがコピーしているのでは、と考えた Tom さんは、当時気になっていたユニコードのゼロ幅文字を使ったトリックを仕掛けたそうです。ユーザーを特定する情報を、見えない文字に変換して埋め込むログイン中のログインユーザーのユーザーIDを、一定のルールによってゼロ幅文字
morobitokozou 2018/04/10
Unicode

技術
リンク
https://jp.techcrunch.com/2018/02/16/2018-02-15-iphone-text-bomb-ios-mac-crash-apple/
morobitokozou 2018/02/16
Unicode

iOS

Mac

バグ
リンク
ISO/IEC 10646:2017発行 | スラド IT
ISO/IEC 10646の第5版が、無事に発行されたとの連絡をいただいた。NHKニュースは、どうも本質的なところを伝え切れていない気がするが、要は半年前に発行されたUnicode 10.0のISO版が、やっと発行されたということだ。規格全体がISO Freely Available Standardsからダウンロード可能だが、PDFで2702ページもあるので注意すること。なお、戸籍統一文字のうち106870は、今回のISO/IEC 10646:2017から漏れてしまっており、今後U+9FEEあたりに緊急追加をおこなう予定である。 IPAは変体仮名の国際規格化も進めており、ISO/IEC 10646の追補版として2018年3月末までに発行される見込みだという。これが完了すれば、漢字、変体仮名全ての国際規格化が完了することになるようだ。
morobitokozou 2017/12/25
Unicode

フォント

異体字

文字コード

文字

IPA

漢字
リンク
コンピューターで全漢字使用可に６万字コード化 | NHKニュース
日本語の漢字は、戸籍などに使われているものも含めると６万字あるのに対し、コンピューターは、実は１万字しか扱うことができません。これに対し、このほど１５年越しの作業の末、６万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの２つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。このためＩＰＡ＝情報処理推進機構は平成１４年から、経済産業省とともに外字を含めたおよそ６万字の漢字１つ１つに、コードを割りつける作業を進め
morobitokozou 2017/12/25
「お前の苗字のさんずいな、本来はにすいだから、来年度からこっちに統合するから」って言われて素直に応じられるかって話

Unicode

フォント

異体字

文字コード

文字

IPA

漢字
リンク
Unicodeと異体字とフォントについて調べてみた - Qiita
はじめに外字について色々調べているうちに、自分自身がUnicodeや異体字について、ちっとも分かっていないということが分かりました。そこで、調べた内容をまとめてみました。情報の密度よりも、文字コードやフォントに関わるときの最低限の知識として、またはCheatsheetとして読み返せる内容としてまとめたつもりです。誤った内容があればご指摘頂けると幸いです。 JIS97 JIS漢字コードはJISが規定した文字集合。俗にJIS漢字コードというと以前はJIS97を指し、正確には「JIS X 0208:1997」という規格である。 6,879個の図形文字を規定。漢字は第一水準と第二水準を搭載。基本的には、区と点で表現し区点コードによって配置している。区点コードは全角文字（非漢字含む）の定義であり、半角文字は含まれていない。区点コードのような文字集合の中での配置番号を「コードポイント」と言う。
morobitokozou 2017/12/25
Unicode

フォント

異体字

文字コード

文字

漢字
リンク
T.M on Twitter: "6万文字一気というよりは残りの1982文字が登録されたっぽい "実際、IPAmj明朝は、文字情報基盤漢字として58,860文字を収容済であるが、1,982文字はまだUCS符号化やIVDへの登録が行われていない" Unicode… https://t.co/DdfJ4WYRsK"
6万文字一気というよりは残りの1982文字が登録されたっぽい "実際、IPAmj明朝は、文字情報基盤漢字として58,860文字を収容済であるが、1,982文字はまだUCS符号化やIVDへの登録が行われていない" Unicode… https://t.co/DdfJ4WYRsK
morobitokozou 2017/12/25
Unicode

フォント

異体字

文字コード

文字

IPA

漢字
リンク
コンピューターで全漢字使用可に６万字コード化 | NHKニュース
日本語の漢字は、戸籍などに使われているものも含めると６万字あるのに対し、コンピューターは、実は１万字しか扱うことができません。これに対し、このほど１５年越しの作業の末、６万字すべてが統一の規格にまとめられて、コンピューターがすべての漢字を扱えるようになり、ビッグデータの活用をはじめさまざまな効果が期待されています。中には、メーカーなどが独自に対応した外字もありますが、コードが無いために、メーカーごとの互換性が無く、データを受け渡してもコンピューターが認識できずに「文字化け」してしまったり、ある人の名前に本名の外字を充てたものと略字を充てたものの２つのデータがあった場合、コンピューター上では、別の人と認識されてしまったりするなどの問題が起きていました。このためＩＰＡ＝情報処理推進機構は平成１４年から、経済産業省とともに外字を含めたおよそ６万字の漢字１つ１つに、コードを割りつける作業を進め
morobitokozou 2017/12/24
𠮷？

文字コード

Unicode

漢字

文字

IPA
リンク
絵文字がある種のUnicodeバグを世界から一掃しつつある件について｜Rui Ueyama
UnicodeのUTF-16エンコーディングではほとんどの文字（コードポイント）は2バイトで表現されるが、Unicodeに後から追加収録された文字の多くは4バイトで表現される。4バイト文字がうまく扱えないプログラムというのはわりとよくある。しかし世界中で広く使われるようになった絵文字がよりによって4バイト文字であるせいで、そのような文字が扱えない問題がよいペースで解決に向かいつつある。それについて少し説明してみようと思う。 Unicodeが80年代から90年代初頭にかけてデザインされたときの目標の一つは、Unicodeに含まれる文字数を65536個以内に収めることだった。現代の文章を実用的なレベルで表すためには、漢字などを含めてもそれだけの種類の文字があれば十分だと考えられたのだ。当然これは1文字を2バイトで表すことを念頭に置いていた。つまりコンピュータの揺籃期から当時に至るまで単純に英語
morobitokozou 2017/11/13
Unicode

絵文字

プログラミング

UTF-16

UTF-8
リンク
UTF-16 が単に Unicode と呼ばれることがある理由 - yanok.net
Windowsのメモ帳でテキストファイルを保存するときに文字コードを選択できますが、その選択肢では「Unicode」と「UTF-8」が並列に置かれています。これに違和感を持つ人も少なくないでしょう。このことを強い調子でけなしている文章をネット上で見かけたので、ちょっとこの件について書いてみましょう。実はここで「Unicode」と言っているのはUTF-16のことです。現在多くの人は、「Unicodeの符号化方式としてUTF-16やUTF-8がある」ものと理解しているでしょう。拙著でもそう説明しています。するとWindowsのメモ帳の開発者はUnicodeを分かっていないのでしょうか。いえ、そうとも限りません。過去の経緯 Unicodeは元々、16ビット固定長の文字コードとして開発されました。ASCIIが7ビットで1文字を表すのと同じように、Unicodeは16ビット版のASCIIですよ、
morobitokozou 2017/09/06
Unicode

文字コード

UTF-16

歴史
リンク
1 2 3 次のページ