空格变成问号

el/2024/7/24 1:20:10
用 HtmlDecode() 去解码后,“ ”不是被解码为半角的空格(ASCII码0x20)而是变成半角问号“?”(ASCII码0x3F)。而且奇怪的是,只有每行前面的空格才会出问题,如果前面后面有汉字的话,空格就还是空格。但是更加奇怪的是,如果直接在HtmlDecode()的后面直接加上trim()的话,这个问号会被去掉。而正常的情况下,问号是不会被去掉的,只有空格才会被去掉。

发生这个问题的时候,我是在把解码后的内容写入数据库,因此一直都以为是sqlserver与应用程序之间的字符集问题或者编码方式问题。搞了N久,最后才发现在送进SqlServer之前,内容就已经是问号了。

查了很久,也找不到这个问题如何解决。因此,只能使用山寨解决方法了:

1、在Decode之前替换   为 空格。

2、在Decode之后直接加 Trim()

显而易见的,这个不是一个好办法:在显示到浏览器的时候,空格就不见了

最近认真去查了一下这个问题,发现问题的关键,是编码方式:如果使用的Encoding是UTF-8的话,就会发生这种情况。

问题的根源,在于UTF-8这种编码里面,存在一个特殊的字符,其编码是“0xC2 0xA0”,转换成字符的时候,表现为一个空格,跟一般的半角空格(ASCII 0x20)一样,唯一的不同是它的宽度不会被压缩,因此比较多的被用于网页排版(如首行缩进之类)。而其他的编码方式如GB2312、Unicode之类并没有这样的字符,因此如果简单地进行编码转换,生成地GB2312/Unocode字符串中,这个字符就会被替换成为问号(ASCII ox3F)。此时如果进行写库、写文件之类,就会把问号直接写入了。当然此时会有一种山寨方式:直接替换问号为空格。可是这种方法,会把原本真正的问号也枪毙掉。

使用UTF-8进行HTMLDecode的时候,对于语句开头的( ),就会被自动转换成为这个特殊的空格,可能是判断为放在开头的空格,一定是用来排版的。在转换为其他编码之前,这个特殊的空格受到的待遇与普通的半角空格是一致的,甚至也会被trim()去掉。

因此,碰到这个问题的原因有两种:一种是在UTF-8编码下进行了转换,产生了这个字符;还有一种就是网页中直接采用了这个字符进行排版。

知道了具体原因,就有正规的解决方法了。方法就是:在得到UTF-8字符串之后,先进行一个替换,把这个特殊的空格替换为普通的空格,如果是HTML串,建议替换为( )。C#代码如下:

byte[] space = new byte[]{0xc2,0xa0};
string UTFSpace = Encoding.GetEncoding("UTF-8").GetString(space);
HtmlStr = HtmlStr.Replace(UTFSpace," ");
这样做,就不会把串里面本来应该有的问号错误的替换为空格。也不会看到讨厌的问号,能保存原来字符串的真面目了。
需要强调的是,替换之前不能进行编码转换,一定要继续使用UTF-8编码。如果已经转换成其他编码,那么错误就已经不可逆转了。没有办法再区分这个错误的问号和正常的问号之间的差别了。

http://www.ngui.cc/el/5557547.html

相关文章

js 正则查找固定字符串

var targetObj" The rain in Spain falls mainly in the plain [UndErline] dfsdf [underline]"; var reg/\[underline\]/ig; //在尾处 /i 表示忽略大小写 /g 表示全部匹配 // \转义 /当成普通字符来处理 //得到找到的位置 如果未找到返回-1 反之返回字符所在下…

fedora 安装virtualbox 之后运行报Kernel driver not installed (rc=-1908)

首先要执行命令 /etc/init.d/vboxdrv setup 安装一下虚拟机驱动才行,可惜执行这个命令报错。 网上找到的相关资料,如果让这里不报错,需要具备3个条件。 1 更新linux内核 我在fedora下执行 yum install kernel 2 安装gcc,让系统…

linux redesktop t推出全屏

按下快捷键 ctrlaltenter

Hibernate主键生成方式详解

Key Generator:主键产生器 可选项说明: 1) [b]assigned[/b] 主键由外部程序负责生成,无需Hibernate参与。 2) [b]hilo[/b] 通过hi/lo 算法实现的主键生成机制,需要额外的数据库表保存主键生成历史状态。 3) [b]seqhilo[/b] …

java生成随机数【转】

如我们可以先通过 random方法生成一个随机数,然后将结果乘以10。此时产生的随机数字即为大于等于0小于10的数字。然后再利用Int方法进行转换(它会去掉小数掉 后面的数字,即只获取整数部分,不是四舍五入)。最后即可获取一个0到9的整数型随机数…

得到手机屏幕的分分辨率

// 得到手机分辨率的大小 必须引用android.util.DisplayMetrics DisplayMetrics dm new DisplayMetrics(); getWindowManager().getDefaultDisplay().getMetrics(dm); mytextview.setText(String.format("当前这个手机的屏幕分辨率是宽:%s高:%s"…

svn服务器配置【转】

一、准备工作 1、下载subversion,地址:http://subversion.tigris.org/servlets/ProjectDocumentList?folderID11151&expandFolder11151&folderID91。这里有各个版本的安装文件,我用的是1.6.1windows msi格式的安装文件,这…

myeclipse 8.5M1 配置tomcat 7

在8.5M1 这个版本里只看到 4X,5X,6X 的tomcat的配置。 那如何配置7X呢? 启动tomcat后报错,java.lang.NoClassDefFoundError: org/apache/juli/logging/LogFactory 报这个错说明你用的是tomcat7。 目前的MyEclipse的内核为Eclipse3.5.* 尚不能提供直接…

Servlet 3.0特性[转]

异步处理支持:有了该特性,Servlet线程不再需要一直阻塞,直到业务处理完毕才能再输出响应,最后才结束该Servlet线程。在接收到请求之后,Servlet线程可以将耗时的操作委派给另一个线程来完成,自己在不生成响应…

hibernate get 和load的区别[转]

get和load方式是根据id取得一个记录 下边详细说一下get和load的不同,因为有些时候为了对比也会把find加进来。 1.从返回结果上对比: load方式检索不到的话会抛出org.hibernate.ObjectNotFoundException异常 get方法检索不到的话会返回null 2.从检索执…