Tag: utf 8

UTF-8问题,不知道在哪里?

我正在运行node.js服务器,以下行无效。 console.log(“☺☻♥ مرحبا 你好”); 我在我的ubuntu服务器14.04上打开了nano和cat的文件(没有gui,没有窗口管理器,没有kde,没有gtk,没有什么,没有什么,纯粹的ubuntu服务器14.04)它看起来像这样: 我在samba共享中有文件,当我在Windows 8专业版中打开它时,它在notepad ++中看起来如此: 这就是samba配置看起来像这样,私有股没有任何花哨或与charsets有关: Locale看起来如此: / etc / default / locale如下所示: 以下命令在ubuntu服务器终端中显示Ô : perl -CO -le ‘print “\x{d4}”’ 像这样: 我使用命令start_unicode然后在输入1236按住ALT并获得一颗钻石! 我运行了以下内容: sudo touch /srv/file.txt sudo bash -c ‘echo -e “\xe2\x82\xac”‘ > /srv/file.txt 这导致纳米非常漂亮的欧元符号然而当试图显示以下☺☻♥它不起作用(黑色钻石) 有人有任何想法吗?

为Xvfb安装中文(和其他utf-8)字体?

我安装了这些包: apt-get install xvfb xfonts-base xfonts-75dpi xfonts-100dpi firefox 但是在我的Xvfb Ubuntu Server上的Xvfb Firefox中,中文字符看起来像: 如何为我的Xvfb安装适当的字体? 编辑 :我也安装了xfonts-intl-chinese但它没有帮助。

gedit无法识别字符编码,但gvim可以

我有很多来自Windows环境的纯文本文件。 他们中的许多人使用了一个糟糕的默认Windows代码页,既不是ASCII(7位)也不是UTF-8。 gvim打开这些文件没有问题,但是gedit没有这样做。 gvim将编码报告为latin1 。 我假设gvim正在对代码页做出“聪明”的假设。 (我相信这个代码页仍然有国际变体 )。 由此产生的一些问题: (1)。 有没有什么方法可以告诉gedit识别这个代码页? ** NB。 [更新]关于这一点(1),请参阅下面的答案。 **对于第(2)和(3)点。 看到奥利的回答。 (2)。 有没有办法扫描文件系统来识别这些问题文件? (3)。 是否有批量转换工具将这些文件转换为UTF-8? (..这个旧世界的文字混乱实际上是最后一根稻草,它把我带到了Ubuntu …… UTF-8系统默认为Brilliant ) [UPDATE] ** 注意: ** 我现在认为以下更新部分无关紧要,因为“问题”文件不是“问题”(请参阅​​下面的答案)。 我把它留在这里,因为它可能对某人有一些普遍的用处。 我已经找到了一个粗略的,准备好的方法来识别问题文件…… file命令不合适,因为它将我的示例文件标识为ASCII …但是ASCII文件是100%符合UTF-8的… 正如我在下面的评论中提到的,对UTF-8代码点的无效第一个字节的测试是: 如果(UTF-8代码点的第一个字节)介于0x80和0xBF之间(保留用于附加字节),或大于0xF7(“超长forms”),则认为是错误 我知道sed (有点,通过Win32端口),所以我设法凑齐了一个RegEx模式,找到了这些令人讨厌的字节。 这是一个丑陋的线,所以如果正则表达式吓到你,请立即离开:) 如果有人指出如何在范围[]表达式中使用hex值,我真的很感激..我刚刚使用了或者运算符\ | fqfn=”/my/fully/qualified/filename” sed -n “/\x80\|\x81\|\x82\|\x83\|\x84\|\x85\|\x86\|\x87\|\x88\|\x89\|\x8A\|\x8B\|\x8C\|\x8D\|\x8E\|\x8F\|\x90\|\x91\|\x92\|\x93\|\x94\|\x95\|\x96\|\x97\|\x98\|\x99\|\x9A\|\x9B\|\x9C\|\x9D\|\x9E\|\x9F\|\xA0\|\xA1\|\xA2\|\xA3\|\xA4\|\xA5\|\xA6\|\xA7\|\xA8\|\xA9\|\xAA\|\xAB\|\xAC\|\xAD\|\xAE\|\xAF\|\xB0\|\xB1\|\xB2\|\xB3\|\xB4\|\xB5\|\xB6\|\xB7\|\xB8\|\xB9\|\xBA\|\xBB\|\xBC\|\xBD\|\xBE\|\xBF\|\xF8\|\xF9\|\xFA\|\xFB\|\xFC\|\xFD\|\xFE\|\xFF/p” “${fqfn}” 所以,我现在将其移植到Oli的批量解决方案中……谢谢Oli! PS。 这是我在示例文件中找到的无效UTF-8字节… “H.Bork,Gøte-borg。” … “ø” = F8 hex …这是一个无效的UTF-8字符。

BASH中变量替换与CJK字符之间的冲突

我在BASH shell中遇到了变量替换的问题。 假设你定义一个变量a 。 然后是命令 $> echo ${a//[0-4]/} 打印其值,删除的范围为0到4之间的所有数字: $> a=”Hello1265-3World” $> echo ${a//[0-4]/} Hello65-World 这似乎工作得很好,但让我们来看看下一个例子: $> b=”你1265-3好” $> echo ${b//[0-4]/}你1265-3好 替换没有发生:我认为这是因为b包含CJK字符。 此问题适用于涉及方括号的所有情况。 令人惊讶的是,没有方括号的变量替换在两种情况下都能正常工作: $> a=”Hello1265-3World” $> echo ${a//2/} Hello165-3World $> b=”你1265-3好” $> echo ${b//2/}你165-3好 这是一个错误还是我错过了什么? 我使用Lubuntu 12.04,终端是lxterminal , echo $BASH_VERSION返回4.2.24(1) – echo $BASH_VERSION 。 编辑: 安德鲁约翰逊在他的评论中表示,使用gnome-terminal 4.2.37(1) – 发布命令工作正常。 我想知道这是lxterminal还是其特定的4.2.24(1) – 发布版本的问题。 编辑:我在Lubuntu 12.04上尝试使用gnome-terminal […]

完整的交换机区域设置:安装了没有区域设置的Ubuntu服务器,如何在系统范围内启用区域设置?

我有一台没有X的服务器 ,安装时没有语言环境。 有一个“C”语言环境。 我需要: 运行服务器脚本(不涉及控制台)来复制,移动和gzip文件到本地ext4文件系统,该文件系统应包含具有特殊编码的文件(捷克语,韩语,俄语等),因此应启用UTF-8。 在控制台中键入命令时查看文件名 当通过ssh记录时,有可能用特殊字母键入大多数文件名。 我该怎么办才能达到这个状态? 目标是提供全系统更改区域设置的完整指南(默认情况下)。

apt-get warning:不支持语言环境:en_US.utf8

每次使用apt-get更新系统时都会出现此错误。 这个错误是什么意思? 关于如何纠正它的任何想法? (我正在运行Ubuntu 11.10)

UTF-8 Telugu文本在终端中无法正确呈现

我正在尝试用Python处理telugu文本。 文本在Chrome浏览器中正确呈现,如下所示。 不幸的是它在终端的默认终端或python shell中无法正确呈现。 你能帮忙找到引起问题的原因吗? 到目前为止我尝试了什么: 安装了所有可用的泰卢固语字体 sudo apt-get install fonts-telu-extra fonts-telu fonts-lohit-telu 在终端中设置unicode支持 locale LANG=en_US.UTF-8 LANGUAGE=en_US.UTF-8 LC_CTYPE=”en_US.UTF-8″ LC_NUMERIC=”en_US.UTF-8″ LC_TIME=”en_US.UTF-8″ LC_COLLATE=”en_US.UTF-8″ LC_MONETARY=”en_US.UTF-8″ LC_MESSAGES=”en_US.UTF-8″ LC_PAPER=”en_US.UTF-8″ LC_NAME=”en_US.UTF-8″ LC_ADDRESS=”en_US.UTF-8″ LC_TELEPHONE=”en_US.UTF-8″ LC_MEASUREMENT=”en_US.UTF-8″ LC_IDENTIFICATION=”en_US.UTF-8″ LC_ALL=en_US.UTF-8 在/etc/locale.gen启用te_IN 从语言支持设置telugu语言。 下载自定义的泰卢固语字体并加载它们。 这些都没有解决问题。 如果没有正确的渲染,很难理解文本。 任何有关排除故障的帮助都非常感谢。

如何更改字幕文件的编码?

我为电影下载了一个希腊字幕,这是我用Gedit打开时看到的。 字幕在VLC上非常有用,一切都很完美。 但是,如果我想用一些希腊语单词来编辑这个副标题呢? 我立即得到有关字符编码的错误。 我点击重试然后VLC无法识别字幕……