汇编中的 ROT13 密码答案

【问题标题】：ROT13 Cipher in Assembly汇编中的 ROT13 密码
【发布时间】：2016-09-24 03:47:11
【问题描述】：

所以我的 ROT13 密码几乎可以做我想做的事，但是最后命令提示符显示在与输出的最后一行相同的行上。这是我在 Assembly 中的第一个项目，所以我很不确定自己做错了什么。

【问题讨论】：

所以请确保您的输出以换行符结尾。（ASCII 码 = 10）。你已经在你的一根弦里有了它。而不是单独的 write() 系统调用，可能只是将 10 存储到保存用户字符串的缓冲区的末尾。
顺便说一句，很好的格式化和注释你的 asm（并使用符号名称，所以你需要更少的 cmets）。这比初学者问题中的大量代码转储更具可读性。
您不需要在_start 处使用nop。 start 和 _start 符号可以具有相同的地址。或者你可以输入b _start 在那里设置断点。（有趣的事实：ld -e 选项可让您将入口点设置为您想要的任何符号名称。但不要这样做，这可能只是令人困惑。此外，在剥离的二进制文件中，您可以使用 readelf 找到入口点的数字地址，以便您可以在那里设置断点。（b *0x04000...）。）
我不能把这归功于...我在这方面所做的所有工作都是修改循环结构。不过，我不确定如何实施您的建议。

【解决方案1】：

您的程序不会在其输出末尾打印换行符，因此当它退出时光标位于非空行的末尾。 shell 不知道这一点，并在那里打印下一个提示。

echo foo 包含一个尾随换行符，因此当 shell 打印下一个提示时，光标已经位于新行的开头。 echo -n foo 不包含尾随换行符，因此它将光标留在以 foo 开头的行的末尾，并且您的提示符会附加到该行的末尾，就像您的程序一样。将这些 echo 命令通过管道传输到 hd 以查看它们打印的 ASCII 字符的十六进制转储。

因此，解决方案是确保您的输出以换行符结尾（ASCII 码 = 10）。你的msg4: db 10, "Read error", 10 字符串中已经有了它。（它以换行符开头并以一个结尾。）在 C 中，你会写 `"\nRead error\n"，但 NASM 语法不是这样工作的。它确实支持反引号字符串中的 C 样式转义，但人们通常会使用数字常量编写换行符。

您的用户输入（您从 sys_read 获得）通常应该以换行符结尾，除非用户在一行中键入 256 个字符，或者使用 ctrl-D 使 read 提前返回。（或者类似的管道输入不以换行符结尾，因此读取命中 EOF）。

我开始遵循比较的逻辑，但很快就厌倦了。我不确定您输入中的换行符会发生什么，但我怀疑您的代码修改了缓冲区中的换行符。您可能应该避免这种情况，并保持它们不变。我想您只需将它们添加到您的比较和分支列表中，以便不修改字符。

对于 rot13 程序来说，这可能比在缓冲区末尾添加一个额外的换行符或额外调用 sys_write 一次以自行打印一个换行符更有用。

您可以使用strace 测试您的程序发出的系统调用。例如strace ./a.out 将解码您进行的 read() 和 write() 系统调用。

有关更多调试技巧，请参阅x86 标签 wiki 的底部。（除此之外还有很多有用的东西）。

顺便说一句，您可以使用 SSE2 在 xmm 寄存器中并行进行所有 cmp al, '?' 比较（广播到 xmm 寄存器的每个元素，并且 PCMPEQB 具有常数/PMOVMSKB/test/jnz）。但是，在您很好地处理标量代码之前，请不要担心这一点。

另一种避免 CMP/JCC 老鼠窝的方法是将字母字符列入白名单，默认情况下不修改输入字符。

我不知道你为什么只将'1'列入黑名单，而不是其他号码，或者'+'而不是'-'，等等。

以下是我实现循环的方式，其中包含一些“高级”技巧，可将多个相似条件合并为单个条件。有关 isalpha() 的无符号比较技巧的说明，请参阅我在 How to access a char array and change lower case letters to upper case, and vice versa 上的回答。

;; ROT13 alphabetic characters.  Copy others unmodified.
;;  Untested
L1_top:
    movzx   eax, [esi]              ; get a character
    inc     esi                     ; update source pointer

    mov     edx, eax                ; save a copy of the original
    or      al, 0x20                ; make it lower-case if it's a letter (but we can still detect non-letters after this)

    sub     al, 'a'                 ; chars below 'a' will wrap to a high value
    cmp     al, 'z'-'a'
    ja      .non_alpha              ; jump if the sub wrapped, or the char was greater than 'z'

    ; input char was alphabetic
    sub     dl, 13                  ; modify the original character
    sub     al, 13                  ; check if that takes us out of the alphabet.  Can be a CMP, not SUB if we want.
    jnc     .nocarry
    add     dl, 26                  ; add 26 if the subtract wrapped
    ;add     al, 26                 ; we don't care about the value in al anymore
.nocarry:

    ; dl = the ROT13'ed character, with its original case
.non_alpha:
    mov    [edi], dl
    inc    edi

    dec    ecx                      ; I'm not sure what all the cmp ecx,0  in various branches was for.  Just do it earlier if necessary.
    jnz    L1_top

原本我打算在 AL 中实际计算 ROT13 的小写字符，然后找出它与原始小写字符之间的差异，并将其应用于 DL。但后来我意识到我可以有条件地修改早期分支中的 DL。

    ;; after the or al,0x20:    mov   ah, al       ; don't over-do it with upper-half byte registers.  False dependencies on AMD, and partial-reg merging stalls or slowdowns on pre-Haswell Intel if you're not careful.

    add     al, 'a'                 ; 'a' + al is the lower-cased ROT13 of the input character
    sub     ah, al                  ; ah = lcase(orig) - lcase(rot13)
    sub     dl, ah                  ; apply that delta to the original in dl
    ; dl is the original character - 13 (plus 26 if necessary)

【讨论】：

您的粗体评论正是正在发生的事情。另外，我真的很讨厌我有这么多使用 al 寄存器的 cmp。这是我第一次合法地进入大会，所以直到现在我才知道更好的方法，但非常感谢！有了您的见解，我理解得更好，我解决了最初的问题。
@swingonaspiral：除了 SSE 技巧之外，当您编写 switch() 语句时，编译器还有其他技巧，其中很多情况都采取相同的操作。例如查看how gcc uses an immediate-constant for TEST as a bitmap。（有关说明，请参阅comments on this answer。）
@swingonaspiral：但实际上，没有任何花哨的技巧，简化代码的方法是退后一步，简化逻辑。它是 ROT13，所以可能我们只想修改字母字符，而保持 everything 其他不修改。因此不要将您想要保留的所有内容列入黑名单，只需将大小写字母范围列入白名单即可。
@swingonaspiral：我很好奇我的循环效率有多高。我添加了一个看起来不错的编辑。您的初学者尝试效率低下是正常的，但我认为您可能有兴趣了解可能的技巧。
实际上，在我获得一些功能并进行更改之后几天，我考虑了您的白名单/黑名单评论，然后回到这里询问有关不同项目的另一个问题。再次感谢您的帮助！