将 wstring 转换为 UTF-8 编码的字符串

新手上路,请多包涵

我需要在 wstring 和 string 之间进行转换。我发现,使用 codecvt facet 应该可以解决问题,但它似乎不适用于 utf-8 语言环境。

我的想法是,当我将 utf-8 编码文件读取为字符时,一个 utf-8 字符被读入两个普通字符(这就是 utf-8 的工作原理)。我想从我在代码中使用的库的 wstring 表示创建这个 utf-8 字符串。

有人知道怎么做吗?

我已经尝试过了:

   locale mylocale("cs_CZ.utf-8");
  mbstate_t mystate;

  wstring mywstring = L"čřžýáí";

  const codecvt<wchar_t,char,mbstate_t>& myfacet =
    use_facet<codecvt<wchar_t,char,mbstate_t> >(mylocale);

  codecvt<wchar_t,char,mbstate_t>::result myresult;

  size_t length = mywstring.length();
  char* pstr= new char [length+1];

  const wchar_t* pwc;
  char* pc;

  // translate characters:
  myresult = myfacet.out (mystate,
      mywstring.c_str(), mywstring.c_str()+length+1, pwc,
      pstr, pstr+length+1, pc);

  if ( myresult == codecvt<wchar_t,char,mbstate_t>::ok )
   cout << "Translation successful: " << pstr << endl;
  else cout << "failed" << endl;
  return 0;

对于 cs_CZ.utf-8 语言环境返回“失败”,并且对于 cs_CZ.iso8859-2 语言环境正常工作。

原文由 Trakhan 发布,翻译遵循 CC BY-SA 4.0 许可协议

阅读 1.4k
2 个回答

C++ 不知道 Unicode。使用外部库,例如 ICU ( UnicodeString class ) 或 Qt ( QString class ),它们都支持 Unicode,包括 UTF-8。

原文由 Philipp 发布,翻译遵循 CC BY-SA 2.5 许可协议

在 Windows 上,您必须使用 std::codecvt_utf8_utf16!否则,您的转换将在需要两个 16 位代码单元的 Unicode 代码点上失败。喜欢😉 (U+1F609)

 #include <codecvt>
#include <string>

// convert UTF-8 string to wstring
std::wstring utf8_to_wstring (const std::string& str)
{
    std::wstring_convert<std::codecvt_utf8_utf16<wchar_t>> myconv;
    return myconv.from_bytes(str);
}

// convert wstring to UTF-8 string
std::string wstring_to_utf8 (const std::wstring& str)
{
    std::wstring_convert<std::codecvt_utf8_utf16<wchar_t>> myconv;
    return myconv.to_bytes(str);
}

原文由 JWiesemann 发布,翻译遵循 CC BY-SA 4.0 许可协议

撰写回答
你尚未登录,登录后可以
  • 和开发者交流问题的细节
  • 关注并接收问题和回答的更新提醒
  • 参与内容的编辑和改进,让解决方法与时俱进
推荐问题