VB中的Unicode 和 Ansi 格式
Visual Basic 32-bit 版本的字串處理采用 Unicode,也就是說(shuō)字串在 VB 內(nèi)部是以Unicode
的格式來(lái)存放。
何謂 Unicode?簡(jiǎn)單的說(shuō),就是每一個(gè)字符都是以 2-byte 的形式表示,而每個(gè)「實(shí)體字符」
就是一個(gè)「字符」。因此,
Len("大家好")
Len("abc")
所返回的值都是 3,因?yàn)椤复蟆购汀竌」都是一個(gè)字符。
但是這對(duì)一些中文字串處理,例如純文字的數(shù)據(jù)文件,卻是一個(gè)大災(zāi)難,因?yàn)槟惚仨氁詁yte
來(lái)定位每個(gè)字符,可是 Unicode 卻把一切的處理全搞砸了。例如:
Len("Good Morning") 返回 12,而
Len("今天天氣很好") 返回 6
對(duì)初學(xué)者而言,好不容易能使用 VB 來(lái)寫程序已經(jīng)是件了不起的事了,卻馬上在中文處理上
挨了一記悶棍,所受到的打擊實(shí)在不小。但是不要怕,事實(shí)上只要再多了解一些指令,就可
以把中文處理的問(wèn)題解決了。
是什么指令呢?最重要的莫過(guò)于 StrConv 了。StrConv 函數(shù)的語(yǔ)法為:StrConv(待轉(zhuǎn)換字
串, 轉(zhuǎn)換格式)
其中轉(zhuǎn)換格式在這里用到的是:
vbUnicode 將 Ansi 字串轉(zhuǎn)換為 Unicode
vbFromUnicode 將 Unicode 字串轉(zhuǎn)換為 Ansi
將字串轉(zhuǎn)成 Ansi 之后,所有的字串處理指令都要加個(gè) B,例如:LeftB, RightB,
MidB, ChrB, InstrB, LenB, InputB 等。例用這些指令來(lái)處理就行了。
當(dāng)你處理完畢之后,你可以再將它再轉(zhuǎn)回 Unicode,這樣就可以使用一般的字串處理指令了。
這樣講看得懂嗎?如果還是不了解,看看下面的實(shí)例說(shuō)明:
簡(jiǎn)易使用范例
看看下面的基本范例您應(yīng)該就會(huì)對(duì) VB 的字串處理方式有些概念。
Private Sub Command1_Click ()
Dim sUnicode As String
Dim sAnsi As String
' Unicode 運(yùn)算
sUnicode = "王小明,A123456789,651023,上海市中山路100號(hào),(02)2345678"
Debug.Print Len(sUnicode) ' 返回 44
Debug.Print Mid$(sUnicode, 5, 10) ' 返回 A123456789
Debug.Print Instr(sUnicode, "上海市") ' 返回 23
' 將 Unicode 字串轉(zhuǎn)成 Ansi
sAnsi = StrConv(sUnicode, vbFromUnicode)
' Ansi 運(yùn)算
Debug.Print LenB(sAnsi) ' 返回 54
Debug.Print MidB$(sAnsi, 8, 10) ' 返回 ?????,因?yàn)橥宿D(zhuǎn)回 Unicode
Debug.Print StrConv(MidB$(sAnsi, 8, 10), vbUnicode) ' 返回 A123456789,請(qǐng)注意轉(zhuǎn)
回 Unicode 的動(dòng)作一定要做
Debug.Print InStrB(sAnsi, StrConv("上海市", vbFromUnicode)) ' 返回 23, 不要忘了
要把"上海市"也轉(zhuǎn)成 Ansi,否則會(huì)找不到
End Sub
讀入文本文件
在 VB 的小技巧中,有一個(gè)是快速讀文件法:
Private Sub Command1_Click ()
Dim sFile As String
Open "C:\filename.txt" For Input As #1
sFile = Input$(LOF(1), #1)
Close #1
End Sub
但是很不幸地,如果你讀取的文件內(nèi)含中文字,那上面這段程序會(huì)出現(xiàn) Input pastend of
file 的錯(cuò)誤。因?yàn)?LOF 返回的是文件的 byte 數(shù),而 Input 函數(shù)讀取的是字符數(shù),由于
文件內(nèi)含中文,因此文件中的字符數(shù)將會(huì)小于 byte 數(shù),于是就發(fā)生錯(cuò)誤了。
要解決這個(gè)問(wèn)題,我們就要用到 StrConv 和 InputB 這兩個(gè)函數(shù)了:
Private Sub Command1_Click ()
Dim sFile As String
Open "C:\filename.txt" For Input As #1
sFile = StrConv(InputB$(LOF(1), #1), vbUnicode)
Close #1
End Sub
上面修正程序先用 InputB 將文件讀進(jìn)來(lái),不過(guò)使用 InputB 所讀入的文件是 Ansi格式的,
所以要再用 StrConv 轉(zhuǎn)成 Unicode 才行。
隨機(jī)數(shù)據(jù)文件
許多文字?jǐn)?shù)據(jù)文件是以固定字節(jié)的位置來(lái)加以區(qū)格,例如下面的數(shù)據(jù)格式:
王小民650110上海市中山路100號(hào) (02)1234567
張大呆660824花蓮縣大甲鎮(zhèn)廣東街23號(hào)(03)9876543......
像這種類型的文件要如何處理呢?這是就必須用到 Type 以及 byte array 了。
Private Type tagRecord
Username(5) As Byte ' 姓名 6 bytes
Birthday(5) As Byte ' 生日 6 bytes
Address(21) As Byte ' 地址 22 bytes
TEL(11) As Byte ' 電話 12 bytes
CrLf(1) As Byte ' 換行字符 2 bytes
End Type
Private Sub Command1_Click()
Dim uRecord As tagRecord
Open "C:\filename.dat" For Random As #1 Len = LenB(uRecord)
Get #1, 2, uRecord ' 取第二筆數(shù)據(jù)
With uRecord ' With ... End With 應(yīng)該會(huì)用吧
Debug.Print .Username ' 返回 ???
Debug.Print StrConv(.Username, vbUnicode) ' 返回 "張大呆"
End With
Close #1
End Sub
在這個(gè)例子中,一定要用到 byte array,因?yàn)橹挥?byte array 才能正確地定位到每個(gè) byte
的位置。以前使用字串來(lái)定位的方法已經(jīng)不適用了,千萬(wàn)要記!但是使用byte array 所
讀入的數(shù)據(jù)是 Ansi 格式,若要處理或是做運(yùn)算的話,記得還要轉(zhuǎn)成Unicode 格式才行。
[●] 使用 Byte Array
除了上面必須使用 byte 精確定位的例子之外,純文字的處理基本上是用不到 bytearray
的。byte array 通常是用在處理 binary 數(shù)據(jù)。這方面的問(wèn)題我們將另文討論。
看吧!只要熟悉使用 StrConv,你就可以在 Unicode 及 Ansi 格式之間自由自在地變來(lái)變
去,相信當(dāng)您看完這篇文章之后,對(duì)處理中文應(yīng)該不再煩惱了吧!