カテゴリー
fun

小学三年生が学校で貰ってきた、英語を漢字にする中国語アルファベット表

twitter で @fozmeadows さんが紹介した、「英語の名前を中国語で書くための変換表」

小学三年生の息子が今日学校でこれを貰ってきて、自分の名前を中国語で書けることを興奮して説明してくれました。私は彼にやさしく、それはとんでもなく間違っていますと伝えなければいけませんでした。

この表によれば、”ABC” は “月官匹”という中国語になるようですね。なんだそれ。

アルファベットに対応する漢字をいくつか見てみると、これって元の英文字に対して、形の似ている漢字を当てはめているだけだとわかります。

多くの(漢字を知らない)人たちでもこの変換表が無意味なことをわかっていて、自分の名前をこの表で変換し、さらにGoogle翻訳で英語に戻して滅茶苦茶な結果が出るのを楽しんでいたりしています。また、この学校に連絡して馬鹿なことを子供に教えるのを止めるべきだ、という意見も。

「こういう表、タトゥーショップによく置いてあるよね」というツイートもあり、なるほど面白漢字イレズミをした外国人はこういう道具を使って漢字を決めてるのかも。

もう少し形の複雑な漢字を使った別の表もありました。

この表に類する変換表、2020年の#中国語の日 にも紹介されたツイートがあり、以前から存在するもののようです。

そして、ついにこの表の源流らしきものを見つけた人が

この画像から探すと、 Good Characters というサイトが見つかりました。

書き順までつけて26個のアルファベットを中国語で描く方法を教えてくれます。それどころか、スマートフォンアプリまで提供していたよう(アップストアからは消えているみたい)。

「このサイトでは、漢字はアルファベットに似た形のものを選んだ」と書いていて、「個人的に楽しむためにだけ使ってほしい」と添えられています。「まちがってもイレズミに使わないでね」とも。このサイトの別のページには「実は中国語のアルファベットなんてないんだ」とも書いているので、元の表を作った人はそこまで騙そうという気はなかったよう。

ネットで転載されていく間に、注意書きや出典情報がカットされ、学校の先生から小学校にまで届いてしまったんですね。

Square Word Calligraphy

元ツイートへの反応の中で紹介されたのがSquare Word Calligraphy(正方形の単語書道)というアートで、1994年に中国人芸術家徐冰氏が作ったものだそうです。

https://www.metmuseum.org/art/collection/search/73325

英字のアルファベットに対して形の似た漢字のパーツをあてがう、という発想はまさに今回出てきた変換表と同じで、あるいはこのアートが発想の大元だったりするのかもしれませんね。

こちらのアートでは、アルファベットに完全な漢字一文字を充てるというより、部首のようなパーツを当てていて、単語を組み合わせて単語に相当する漢字一文字を作り上げるとことが違うといえば違います。

これ、表に従って元の単語を追うと、”happiness”となります。面白い。日本人であればこの漢字は本物ではなさそうと思いますが、漢字を知らない人たちから見たらわからないですよね。

升月戶戶了 水月内丁工 心工下三!

via twitter

カテゴリー
技術

Confusables – 紛らわしい文字を含めて検索できるPythonライブラリ

Unicode コンソーシアムが提供している見た目そっくりな文字リストにある文字が紛れていても文字列マッチする小さなライブラリが Confusables です。

このクラスは最新の Confusables.txt を Unicode.org から取得し、紛らわしい文字を含んだマッチする正規表現を生成してくれます。

たとえば、”Hello” に対しては次のようなパターンができます。

Regexp pattern: [HHℋℌℍ𝐇𝐻𝑯𝓗𝕳𝖧𝗛𝘏𝙃𝙷Η𝚮𝛨𝜢𝝜𝞖ⲎНᎻᕼꓧ𐋏ⱧҢĦӉӇ][e℮eℯⅇ𝐞𝑒𝒆𝓮𝔢𝕖𝖊𝖾𝗲𝘦𝙚𝚎ꬲеҽɇҿ][l‎\|∣⏽│1‎۱𐌠‎𝟏𝟙𝟣𝟭�
IIIⅠℐℑ𝐈𝐼𝑰𝓘𝕀𝕴𝖨𝗜𝘐𝙄𝙸Ɩlⅼℓ𝐥𝑙𝒍𝓁𝓵𝔩𝕝𝖑𝗅𝗹𝘭𝙡𝚕ǀΙ𝚰𝛪𝜤𝝞𝞘ⲒІӀ‎‎‎‎‎‎‎‎ⵏᛁꓲ𖼨𐊊𐌉‎‎łɭƗƚɫ‎‎‎‎ŀĿᒷ🄂⒈‎⒓㏫㋋㍤⒔㏬㍥⒕㏭㍦
⒖㏮㍧⒗㏯㍨⒘㏰㍩⒙㏱㍪⒚㏲㍫ljIJ‖∥Ⅱǁ‎𐆙⒒Ⅲ𐆘㏪㋊㍣Ю⒑㏩㋉㍢ʪ₶ⅣⅨɮʫ㏠㋀㍙][l‎\|∣⏽│1‎۱𐌠‎𝟏𝟙𝟣𝟭𝟷IIⅠℐℑ𝐈𝐼𝑰𝓘𝕀𝕴𝖨𝗜𝘐𝙄𝙸Ɩlⅼℓ𝐥𝑙�
𝓁𝓵𝔩𝕝𝖑𝗅𝗹𝘭𝙡𝚕ǀǀΙ𝚰𝛪𝜤𝝞𝞘ⲒІӀ‎‎‎‎‎‎‎‎ⵏᛁꓲ𖼨𐊊𐌉‎‎łɭƗƚɫ‎‎‎‎ŀĿᒷ🄂⒈‎⒓㏫㋋㍤⒔㏬㍥⒕㏭㍦⒖㏮㍧⒗㏯㍨⒘㏰㍩⒙㏱㍪⒚㏲㍫ljIJ‖∥Ⅱǁ‎𐆙⒒Ⅲ𐆘
㏪㋊㍣Ю⒑㏩㋉㍢ʪ₶ⅣⅨɮʫ㏠㋀㍙][oంಂംං०੦૦௦౦೦൦๐໐၀‎۵oℴ𝐨𝑜𝒐𝓸𝔬𝕠𝖔𝗈𝗼𝘰𝙤𝚘ᴏᴑꬽο𝛐𝜊𝝄𝝾𝞸σ𝛔𝜎𝝈𝞂𝞼ⲟоჿօ‎‎‎‎‎‎‎‎‎‎‎‎‎‎‎‎‎‎‎‎ഠဝ𐓪𑣈
𑣗𐐬‎øꬾɵꝋөѳꮎꮻꭴ‎ơœɶ∞ꝏꚙൟတ]

あとはこれに対して入力された文字列がマッチするかをチェックすれば、紛らわしい文字列かどうかの判定ができるというわけです。

テストコードでは “𝓗℮𝐥1೦” が “Hello” にマッチすることが確認できます。紛らわしい文字列として真で、元の”Hello”と同値ではないなら、誤認することを狙った”Hello”のニセモノだ、というわけですね。

Confusables のリスト中には日本語の紛らわしい文字(ハと八とかニと二とか)もあります。『カタカナの「ノ」はスラッシュと似ている』という定義もあり、”and/or” に間違うパターンを出してみるとこんな風になりました。カタカナの「ノ」だけじゃなく斜め線に見える文字もたくさんUnicodeにあるんですね。

Regexp pattern: [a⍺a𝐚𝑎𝒂𝒶𝓪𝔞𝕒𝖆𝖺𝗮𝘢𝙖𝚊ɑα𝛂𝛼𝜶𝝰𝞪а⍶℀℁ꜳæӕꜵꜷꜹꜻꜽ][n𝐧𝑛𝒏𝓃𝓷𝔫𝕟𝖓𝗇𝗻𝘯𝙣𝚗ոռɳƞη𝛈𝜂𝜼𝝶𝞰ᵰnj][dⅾⅆ𝐝𝑑�
𝒹𝓭𝔡𝕕𝖉𝖽𝗱𝘥𝙙𝚍ԁԁᏧᑯꓒɗɖƌđ₫ᑻᒇʤdzʣdžʥ][/᜵⁁∕⁄╱⟋⧸𝈺㇓〳Ⳇノ丿⼃⧶⫽⫻][oంಂംං०੦૦௦౦೦൦๐໐၀‎۵oℴ𝐨𝑜𝒐𝓸𝔬𝕠𝖔𝗈𝗼𝘰𝙤𝚘ᴏᴑꬽο𝛐𝜊𝝄𝝾𝞸σ𝛔�
𝝈𝞂𝞼ⲟⲟоჿօ‎‎‎‎‎‎‎‎‎‎‎‎‎‎‎‎‎‎‎‎ഠဝ𐓪𑣈𑣗𐐬‎øꬾɵꝋөѳꮎꮻꭴ‎ơœɶ∞ꝏꚙൟတ][r𝐫𝑟𝒓𝓇𝓻𝔯𝕣𝖗𝗋𝗿𝘳𝙧𝚛ꭇꭈᴦⲅгꮁɽɼɍғᵲґ𑣣mⅿ𝐦𝑚𝒎𝓂𝓶𝔪𝕞𝖒𝗆𝗺𝘮
𝙢𝚖𑜀₥ɱᵯ]

“andノor” と入れると、”Matched” となるわけです。

日本語ドメインもあまり普及していないし、日本語に紛らわしい文字を混ぜた文字列で何かをすり抜けられるというユースケースもそんなにないかもしれませんが、まあそういう必要があればこういったチェックをつけるのでしょう。

カテゴリー
ネットのサービス

Msgif – テキストをアニメーションgif化してくれるサービス

Msgif は、文字列を打つと、打ってる様子をアニメーションgifにしてくれるというサービス

Product Hunt の新着で見かけて、「こういうの日本語は動かないことが多いんだよねえ」と試してみたら、まったく問題なく動くしIMEで入力中の状態まで再現されました。

フッタの作者名を見たら日本名で、カナダ在住の日本人の方のようです。なるほど。

作成画面から、twitterなどSNSでの共有で使う用途で考えられているようですね。動きのあるメッセージを簡単に作って共有できるのはいいんじゃないかなと思いました。

via Product Hunt